智能语音交互竞赛即将启幕 100%识别准确率不是梦_智能语音

智能语音交互竞赛即将启幕 100%识别准确率不是梦

中国工控网

2017/3/24 9:42:51

当前，智能语音交互发展趋势日渐清晰，语音有望成为AI领域中最先落地的应用之一。但由于诸多因素限制，目前语音交互仍处于起步阶段，相关语音交互技术还无法支持大规模的应用和推广。

语音交互竞赛即将启幕 100%识别准确率不是梦

　　众所周知，互联网实现了人机交互，但依赖于手指与屏幕的传统交互方式，因动作迟缓而效率低下，同时缺乏来自机方的主动反应与交流；而图像识别的交互方式虽然让交互的界面变得生动起来，但冷冰冰的画面仍无法满足人类情感诉求。

　　与之相比，建立在人工智能基础之上的语音交互在实现“去手指”与“去屏幕”的同时，让机器更主动地读懂人类以及人类的世界，从而让人类获得前所未有的极致体验。

　　借助于语音交互的场景，人类只要发出简单的口令，语音助手就能快捷地提供所需服务，甚至还可以与人类进行着轻松聊天与情感交流。据Gartner预测，到2018年，30%的人机交互将通过自然语言完成。

　　捕捉到巨大商机的科技巨头其实早在六年前开始就在语音交互市场成兵布阵，直至目前全球语音助手形成了四雄争霸的格局，即苹果的Siri、谷歌的Assistant、亚马逊的Alexa与微软的Cortana，并由此诞生了各自门下的智能生态系统。

　　根据相关数据显示，目前，Siri会说36个国家的21种语言，Cortana会说13个国家的8种语言，Assistant会说4种语言，而Alexa只会说英语和德语。当然，除了“四大天王”之外，还有一些强兵劲旅也在追赶，比如三星已经推出名为Bixby的语音助手，华为成立了一个专攻语音助手开发的团队。

　　而在今年，语音交互市场又迎来一批新生力量。在今年的CES上，联想推出了一款可以通过语音指令操作的智能音箱，它可以播放音乐、播报新闻、朗读有声书、收听音乐电台、查询天气；用户也可以语音叫车、定外卖等等。

　　3月21日，小米发布了电视新品——小米电视4A，覆盖了43英寸、49英寸、55英寸、65英寸4个尺寸。这次小米电视4A最大的特点，就是它是一款完全能靠说话操控的电视。

　　在小米电视4A上，如果你明确知道自己想看的电影，直接说出片名即可点播；如果你不知道想看什么，只要说出明星、导演、主题、奖项等关键词，比如“关于骑行的电影”、“关于空难的电影”、“获得奥斯卡的电影”、”名字有大饭店的电影“、“胡歌和王凯演的电视剧”，甚至“古力娜扎男友的前女友演的电影“，电视都能精准地给你推荐想看的内容。

　　此外，免费通信应用提供商LINE日前发布消息称，将于年内在日本和韩国推出具备人工智能(AI)的语音交互型智能音箱“WAVE”。用户可以通过语音控制实现播报新闻、网上购物等多种功能。

　　尽管越来越多大牌玩家进入语音交互的领域，智能语音市场的未来发展逐渐明晰，但由于技术和社会环境的限制，目前语音交互还处在起步阶段，相关的语音交互技术还无法支持大规模的应用和推广。

　　语音识别的准确率仍有待提升。因为语音识别技术对于环境的要求十分苛刻；背景噪音、口音、语速、特定领域的专有名词等因素都会对识别准确率造成显著的影响。因此，在当前技术水平下，语音识别技术的使用范围仍十分局限，使用体验也仍有改善空间。

　　在正确识别用户发音的前提下，机器无法完全理解用户想要表达的真实含义。人类口语跟书面语言有着巨大差异，与计算机可读的二进制编码或者字符序列更是天渊之别。把富有个性化的人类口语转化成机器语言是一件十分浩大的工程，目前取得的成果十分有限。