今天想谈谈语音输入,其实前几天我就在 Twitter 上也有谈过语音输入(1/2/3),那时候正好是在看 Steve Litchfield 的PhoneShow 104(btw,插一句,PhoneShow的Podcast还是比较不错,配上画面那英语相对来说也是比较容易听懂的),正好 StonyWang 同学提起了 IBM 的 ViaVoice 技术,引起无限怀念,故作此文,聊表自己无聊之情,非技术文,仅仅是谈谈自己用过的这些语音输入的一个比较和感慨。
语音输入的初接触——IBM ViaVoice

IBM ViaVoice 是我第一个使用过的语音输入软件(是当初购买的方正品牌机种内置的软件),据 @StonyWang 介绍,最初 ViaVoice 是搭配硬件卡一起销售的。估计也是因为最初的时候硬件解码能力不足的缘故吧,就像在当初豪杰超级解霸之前,也有很多专门用于解码VCD的硬件。突然想起以前没用宽带的时候,看股票也不是用大智慧,而是用一种叫做通视卡的设备,而且还需要付和宽带费差不多的年费。如今那些公司也和当初卖BP机的国脉通讯一样,消失于技术升级的革命之中了吧。提起股票软件,现在用的最多的应该是大智慧和同花顺吧,其他的包括Level2行情还有电台里广告很多的那些软件都是挺贵的。
ViaVoice 在最初使用前需要经过一定的训练学习,来了解输入者的口音,然后进行一定的校正,由于需要进行一定的练习,所以我放弃了,从现在的角度来说,或许是用户门槛过高了吧,^_^。
Windows XP之后的操作系统均已内置语音输入,不过相信使用的人也不会很多,某些盗版例如番茄花园等可能将这些功能精简掉(没有测试过,胡乱猜测)。
Nokia的语音拨号
除了在电脑上的语音输入,那一时期还用过的就是诺基亚的语音拨号软件了,不过我一直觉得那个挺不好用的,用的很少。当时,用的手机还是 Nokia 的 8210,那个在当年还算比较火的手机。这款手机其实还有一个兄弟机,也就是蝴蝶键盘的蓝屏8250,当年也是曾为街机,大红大紫过的。Nokia 的语音拨号,在我使用过的几款 Nokia 手机中(Nokia3230/E51/E71)均有,而且还专门为其设置了快捷键(长按右键或者长按静音键)。只是据我了解,愿意使用该项功能的用户极少,包括我在内的大多数人都认为其不够好用,也许这个结论太过主观了,欢迎批驳。

其实,如果你是一个仔细的用户的话,你会在诺基亚的手机中看到不止一处语音技术的应用,包括语音识别和TTS,例如短信息的语音播报(中文语音小颖需要额外安装,可在dospy等网站搜索到),语音助手等,不过总体语音识别能力并不高。
最近的一些语音识别应用
最近 iPhoneOS 上的VoiceOver 相对来说是被使用的比较多的一个语音识别技术,通过语音来控制歌曲的播放,在 iPod Shuffle 上也有,挺实用的功能,不过相对于我的期望来说,功能还有所欠缺,比如不能通过语音来报时,也不能通过语音来评定星级,也不能通过语音来查看电池电量,好多要求啊,小小的汗一记。
其实不仅是 iPhone 平台啦,在 Nexus One 和 Symbian 平台上也有基于云的语音识别系统,Nexus 那个语音识别对于英文来说据说十分强大,可怜我们还要输入中文啊。至于 Symbian 以及 黑莓Blackberry 上,有个名为 Vlingo 的十分强大的应用,(AppStore 里估计也有类似应用,不过如果无法集成到系统中,则应用还是十分受限制的,无法随时随地呼出使用嘛)
Vlingo 和 Nexus 都是根据你的语音,上传到服务器来进行匹配,然后返回相应的匹配结果,也是瘦客户端模型(类似Opera Mini)。Vlingo 还是十分强大的,而且在各大智能系统中都有(Symbian/BB/WM/iPhone,似乎BB和Symbian还是比较主打的),可以通过Vlingo 打开应用程序,发短信、Email,甚至直接发推,近乎神器,当然也只支持英文。 Vlingo 的更多信息,可以到它的主页 http://www.vlingo.com/ 查看,相信你也会认同我的观点,这是个十分创新且有前途的Apps。然后,最近比如 Google Mobile Apps 还有 Bing Apps 也都有加入语音搜索功能,当然语音识别一般来说也不是本地进行的。
最后说说,语音输入的要点吧:1.尽可能的将短句分为一个一个的单词,单词之间有停顿,引擎对于单词的识别较好 2.语速尽可能平稳,不要过快过慢,将一句话讲完
最后,我也和您一样,期待着语音技术更加美好的明天,希望那些技术人员更加的努力哈。
12 条评论了已经
Trackbacks/Pingbacks
发表评论
字体为 粗体 是必填项目,邮箱地址 永远不会 被公布。
允许部分 HTML 代码:<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>
URLs(网站链接)必须完整有效 (比如: http://coolxll.me),所有标签都必须完整的关闭。
超出部分系统将会自动分段及换行。
请保证评论内容是与日志或 Blog 内容相关的,灌水、攻击性或不恰当的评论 可能 会被编辑或删除。













以前用过IBM的,但是感觉一般般,只是为了好玩,还不如用摄像头进行脸部识别好玩。黑莓上还能识别粤语呢。。。。
[回复]
coolxll
回复:
四月 10th, 2010 at 11:24 下午
@molezz, 我觉得改变输入方式,才是UI最大的变化呢,触摸屏也只是一个小变化对吧
[回复]
vlingo巨强大 但是不支持中文可惜了啊
[回复]
coolxll
回复:
四月 10th, 2010 at 11:24 下午
@tonyq0802, 谁让好软件都是外国人开发的捏。
[回复]
tonyq0802
回复:
四月 10th, 2010 at 11:28 下午
@coolxll, 有理 不过中国各地方言…让语音识别很是困难啊
[回复]
我以前也装过IBM的语言输入法(不知道是不是就叫ViaVoice了),感觉挺好玩的,现在手机的技术还真快,以前看到那个手机够大(还是黑白屏),如果有语音拨号觉得特牛逼。提起语音拨号,想起了某集的TBBT片头了。
[回复]
coolxll
回复:
四月 10th, 2010 at 11:24 下午
@muzuiget, 其实我更希望能够通过语音来和手机交流,然后手机直接执行命令,科幻了点。。
[回复]
coolxll
回复:
四月 10th, 2010 at 11:25 下午
@muzuiget, 现在的命令都是内置死的,理想中的语音识别,至少应该更模糊一点,类似人的理解能力的模式识别。
[回复]
这个前景看起来很不错
[回复]
coolxll
回复:
四月 10th, 2010 at 11:21 下午
@Firm, 我还期待用意识操控电脑的那一天呢。
[回复]
google的APP确是很智能,只要普通话正确,识别的很好的。
[回复]