谷歌离线语音识别即将上线 实现更快速可靠的文件转录

2019-03-16 00:15 手机中国

打印 放大 缩小

谷歌目前正在升级其Gboard键盘上的离线听写功能。谷歌表示,这一更新意味着用户将能够更快、更可靠地口述电子邮件和文本,而无需担心是否连接到互联网。

谷歌相关人员表示,语音识别的改进将慢慢地彻底改变我们与移动设备的交互方式。并指出,尽管语音识别技术近年来有所改进,但仍是一项不成熟的技术。它是计算密集型的,这意味着大多数语音识别系统必须通过互联网发送数据。

谷歌离线语音识别

谷歌离线语音识别

为了实现这一转变,谷歌的团队花了五年时间研究这个问题,并简化了应用程序用于语音识别的人工智能系统。例如,旧版本的Gboard听写软件使用了三个独立的组件来建模音频波形,匹配声音和音素,然后将这些音素组合成书面输出,而更新版本则将所有这些工作都集成到了一个单一的步骤中。

新模型还将系统中被称为“decoder graph”的部分缩小了,该组件的功能类似于书中的索引,将音频波形与书面文字进行匹配。在旧版本的Gboard的听写模型中,这个“decoder graph”的大小为2GB。相比之下,新版本只有80兆,缩小了25倍。

此次升级目前仅限于美式英语听写,但Beaufays表示,未来这一功能将得到更广泛的应用,并将扩大人工智能语音识别的范围。

责任编辑:陈群(QT0001)