语音识别真的比肩人类了?听听阿里iDST初敏怎么说

  • 时间:
  • 浏览:0
  • 来源:uu快三_uu快三直播_uu快三官网开奖平台

目前市面上,基本上还没办法 哪个团队在提供快速定制化服务,亲戚亲戚一些人是非常领先的。

编者按:由中国人工智能研究会、阿里巴巴以及蚂蚁金服联合主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(CCAI 2017)将于7月22-23日正式召开,大会期间阿里云iDST智能交互总监初敏将在“语言智能与应用”论坛上分享语音交互技术的趋势,在此之前 ,阿里云云栖社区作为独家直播商务商务合作伙伴采访了初敏。

云栖社区:阿里在语音交互上重点做了那此事?

技术使用起来往往还要另有六个 迭代的过程的,还要先上线,但会 在场景里挂接数据去评估,优化模型,改善用户体验。经过几轮迭代,可不还可不能否 可不还可不能否 发挥最佳效果。一些AI技术也是相似于的。今天一些AI技术的用户很容易把技术的能力理想化,感觉一引入,就应该立竿见影的看后效果。看后实际效果不尽人意时,就会感觉有很大的落差,失望和放弃。一些,我就 强调的是,一方面智能语音技术原因分析达到广发应用的水平,一齐在真正落地的之前 ,要充分认识到原因分析遇到的困难,有持久战的思想准备。

另外另有六个 一些我亲戚亲戚一些人更关注的语音交互,语音交互固然没办法 被重视,我随便说说是原因分析互联网、智能硬件的普及。未来智能电视、智能音箱,甚至到之前 的日常设备,都能可不还可不能否 变成另有六个 互联网的入口,语音一些我最简单的,最直接的交互最好的法子,是通用的输入模式。

云栖社区:去年双十一阿里ET语音交互系统有亮相,它还有那此提升空间?

云栖社区:团队做了那此改善方案?

云栖社区:下个月您会在CCAI语音交互分论坛上分享,作为演讲嘉宾您希望能给开发者带来那此样的帮助?

云栖社区:下个月举行的CCAI大会上开设了“语言智能与应用”论坛,针对你這個 方向,您认为现在学术界和产业界还发生那此痛点?

语音识别真的比肩人类多会儿?各种算法之间该怎么才能 才能 选则?怎么才能 才能 提升语音交互的用户体验?带着那此疑问,云栖社区采访了阿里云iDST智能交互总监初敏,听听她是为什么么么说的。

(注: iDST语音识别团队曾在2016年以0.67%的准确率优势击败了世界速记大赛亚军蒋毅,据了解,iDST团队使用了BLSTM算法,你這個 算法对单位时间内的计算量要求很高,为此亲戚亲戚一些人做了一些针对性的优化工作,可不还可不能否 我就是什么算法提供实时服务,并第一次在工业界进行了大规模部署。)

语音识别就有万能的,随便一接就能可不还可不能否 的用的很顺畅的。

亲戚亲戚一些人现在花了一些时间研发系统的定制能力,一些我用户在系统上提交数据就能可不还可不能否 通过亲戚亲戚一些人的自动流程来定制亲戚亲戚一些人的模型,你這個 模型在亲戚亲戚一些人还要的场景下能可不还可不能否 取得比通用模型更好的效果。亲戚亲戚一些人现在一些的工作是从你這個 深度来看。我认为将来这方面是谁的能力最强,谁就能真正在市场上快速把它用起来。

然而,事实不须没办法 。市面上已有的语音交互产品一些都发生一些通病:在特定领域效果不错,但超出指定范围就差强人意了,一些我的疑问让用户整体体验大打折扣…

“XXX产品识别准确率高达99%,识别准确率比肩人类!”

初敏:我随便说说脱离了应用场景讲识别准确率、讲产品根本一些我不靠谱的,亲戚亲戚一些人谈到的百分之十2个 的识别准确率理论上不发生,任何另有六个 准确率就有在特定场景下测出来的,不同的场景测出来不一样,做一套模型在所有场景上都达到非常高的准确率,是不太现实的。

初敏:ET语音交互系统随便说说还有改善的空间,亲戚亲戚一些人平常准确率能做到95%、96%的水平,但当时主持人讲的语速太快,准确率也就不尽如人意了。此外,跟主持人交互的自由度方面,也还有一些能可不还可不能否 做的事情。

毫无疑问,语音交互原因分析成为人工智能领域最心智心智成长期期也是落地最快的技术。尤其是深度学习的起势,让语音识别、语音合成以及自然语言处里的发展下行速率 提升到了另有六个 新的深度。

云栖社区:就像您提到的现在语音识别产品用起来其就有有各种各样的疑问,要达到真正详细可用的清况 亲戚亲戚一些人还还要克服那此疑问?

CCAI 2017大会由中国科学院院士、中国人工智能研究会副理事长谭铁牛,阿里巴巴技术委员会主席王坚,香港科技大学计算机系主任、AAAI Fellow 杨强,蚂蚁金服副总裁、首席数据科学家漆远,南京大学教授、AAAI Fellow 周志华一齐甄选出在人工智能领域本年度海内外最值得关注的学术与研发进展,汇聚了超过 40 位顶级人工智能专家,带来 9 场权威主题报告,以及“语言智能与应用论坛”、“智能金融论坛”、“人工智能科学与艺术论坛”、“人工智能青年论坛”4 大专题论坛,届时将有超过 2000 位人工智能专业人士参与。报名请戳这里!

大会讲师采访:

所有人面,亲戚亲戚一些人也在在建模单元上做一些尝试,传统的做法是对清况 建模(通常把另有六个 音素切成另有六个 清况 ),现在亲戚亲戚一些人成功的使用音素作为建模单元,在准确率保持的前提下,解码下行速率 提升高三到五倍。更大的建模单元也在尝试中。

初敏:语音交互技术在未来三五年内会大规模应用,这是亲戚亲戚一些人看之前 的趋势,但会 换句话说,亲戚亲戚一些人都希望产品在目标场景中取得好的效果,但现实很残酷,并就有每所有人就有算法原因分析人工智能领域的资深专家,还要另有六个 不断学习和迭代的过程。AI技术的应用是另有六个 系统工程,亲戚亲戚一些人要有足够的耐心去打通产品和体验的优化链路,在应用中不断提升效果。

云栖社区:从国内外的趋势来看,语音交互技术的应用很多,您认为推动语音技术普及的主要原因分析是那此?

当然现有的一些语音产品还没办法 没办法 成功,我认为随便说说现在产品比较多,但会 真正好用的,我就另有六个 劲想用的却很多。

初敏:就像你刚才问到的,语音识别宣传得很好,但一些之前 用起来还没办法 预期的没办法 好,主一些我原因分析技术到产品的落地之间还有一些工作没办法 做好、做细致。

初敏:这两年来亲戚亲戚一些人随便说说做了一些工作。

初敏:语音另有六个 大的方向在用,第另有六个 把语音当成数据,相似于在讲座、法院,原因分析是客服那此场景中,之前 有的会录音,有的不录音,讲完就过去了,而现在那此语音就有记录下来,但会 就有识别成文字,这实际上是另有六个 数据积累的过程,亲戚亲戚一些人能可不还可不能否 对那此文本化的数据进行各种分析、挖掘和加工等等。

初敏:算法实际上有一些,DNN是全连接的,CNN是有卷积的,但会 RNN基本上是序列的,亲戚亲戚一些人实验最成功的是双向的BLSTM,而现在还是一些一些的选则,包括优化准则方面的变化。最终在线上系统采用那此算法,还要综合考虑,既要看效果,一齐还要考虑到计算下行速率 ,部署成本等因素。

一方面是在算法方面的尝试,语音这两年进步的比较快实际上一些我深度学习的成功应用,亲戚亲戚一些人尝试了各种深度学习模型,如DNN、CNN、BLSTM(双向长短时记忆神经网络),不得劲是在业界最先大规模上线了基于BLSTM的系统。一齐,亲戚亲戚一些人也会尝试各种新算法。还要提到的是一些算法比较冗杂,实验效果好,但会 上线就一些难度,一些亲戚亲戚一些人还要进行少量的尝试。另外,现在那此模型的训练是冗杂度挺高的,训练的时间一般会很长,不得劲是当你的数据不得劲多的之前 。 模型训练的很大一累积任务要由GPU处里,在多台机器上的多块GPU卡上并行训练,可不还可不能否 提升模型优化的下行速率 ,但会 亲戚亲戚一些人也还要进行一些你這個 底层基础设施的建设(详见:GPU训练的快速大规模分布式扩展-GPU多机多卡Machine Learning Middleware)。

以云栖大会为例,云栖大会的Talk,语音识别准确率基本能可不还可不能否 做到95%以上,但原因分析另有六个 劲邀请另有六个 特殊领域的讲演者,比如医疗领域,原因分析就不难 达到同样好的效果,原因分析现有模型在医疗领域的知识积累缺乏。一些,要把语音技术在各种领域普及开来,能快速针对不同场景进行模型调优和定制变得非常重要,这也是亲戚亲戚一些人下面主要推进的另有六个 方向。

围绕语音交互的入口之争正愈演愈烈,siri、echo那此产品风靡全球的一齐,国内外科技巨头、创业团队也在暗流涌动,各种智能音箱以及语音处里方案层出不穷。

初敏:要在更多的场景用好就还要要有少量的数据。原因分析场景的磨合就有和数据有关,数据是那此场景来的,它就能可不还可不能否 在你這個 场景下取得好的效果。之前 亲戚亲戚一些人在客服领域的数据不得劲多(详见:语音识别助力客服小二:集团语音识别技术在留声机、服务宝项目中的应用),但会 还有一些就手机端的,比如说手淘(详见:阿里小蜜:语音识别、语义分析、深度学习在手机淘宝的实战分享),但会 视频类的就会差一些。但会 ,亲戚亲戚一些人就有针对性的增加数据,一齐增加各种原因分析的背景噪声,在专门优化后,视频里的语音的识别效果就大幅提升了。但会 ,快速的模型定制对语音技术的广泛应用非常重要。

云栖社区:在算法的选则上是为什么么么考量的?

于是乎,各种美化宣传扑面而来!

除了语音识别,亲戚亲戚一些人在语音合成、对话管理,问答等方面也做了一些工作,还包括在不同端上的信号处里,相似于麦克风阵列等等就有须去实践的。一些我可不还可不能否 完成语音交互的详细过程。

以下内容挂接自采访录音:

CCAI大会简介: