未来车内最好的互动方式就是语音互动

 智慧语音是否仍将是AI时代的入口?

谁也没看见,先闻一闻,自2017年苹果发布智能音箱以来,语音交互一直被视为AI时代的第一入口,成为京东、百度和阿里争相争夺的香饽饽,它们指望通过低价+补贴的互联网手段来抢占市场。但是,随着人工智能的发展,语音交互已经不再性感,而且对于大多数用户习惯来说,需求仍然局限于家庭和车载场景,很难像iPhone诞生时那样具有革命性的影响。
所有这些让我们看到,智能语音的应用场景正在突破传统的想象空间,对长期不能充分利用音箱业务的智能语音企业来说,无疑开启了另一扇窗,也必将成为2021年的一个重要趋势。
音盒子,家,车,智能语音何以落地?
近5年来,对智能语音的需求首先在消费级市场爆发,依靠因特网和智能设备厂商加大对语音识别的投资,价格补贴战犹如一针强心针扎进市场。
月销售智能音箱的中国市场。
三产竞争的底层逻辑并没有什么不同,音箱一度被视为唤醒智能家居的重要一环,以此连接起整个AI生态圈。然而,整个行业所面临的痛点仍然没有解决,音箱设计陷入APP式思维的窠臼,由于众多服务平台的鼎足而立,相互掣肘,只能形成局部范围内的智能家居生态系统。
但是到了2020年,值得注意的变化是,随着国产电动车的崛起,从车载语音切入成为了语音交互风向标。而作为电动车企业中的一个新兴力量,何小鹏CEO就曾在此前的小鹏P7发布会上说过,“未来车内最好的互动方式就是语音互动”,正是出于这个原因,小鹏下注于思必驰,与智能语音公司思必驰合作,建立一个相对成熟的语音系统。
受政策扶持、市场需求的推动,多方涌入的车载语音市场不断扩大,BAT御三家已启动车载语音业务。在这些公司中,百度发展迅速,市场份额超过5%,并与许多世界知名汽车品牌建立了合作关系。百度汽车联网事业部总经理苏坦认为,汽车智能化时代已经真正来临,未来2-3年,发展变化将十分迅速,这也是相关企业加速转型的原因。
消费类市场的繁荣为智能语音的落地提供了更多多样化的场景,从业者们正在翘首以待,在厂商和开发者共同打造产业生态圈的过程中,智能语音与其它软件功能的融合,为消费者提供连通的体验。那天将会是工业革命的火种。
2职业级场景爆发,技术泛用寻求破局。
被称为专业化市场的语音识别产品主要表现为两种形式:工业解决方案和技术输出平台。因为后者的平台建设仍处于烧钱扩张阶段,需要深耕垂直场景的行业解决方案,包括智慧医疗、智慧教育、司法行政以及智能客服等领域的收入占比更高。
比如,在复工复产期间,为确保疫后安全,智能语音在政府管理中起到了关键作用,如腾讯推出的“AI政府联络机器人”,可以与辖区居民进行联络,完成政府信息传递,解决因人力不足造成的疫情防控难问题。
与此同时,AI在医疗领域也得到了一定的帮助,智能语音有两大应用领域:
②电子病历的语音输入与转写,临床报告的语音输入与转写;在提高医生的工作效率和工作质量的同时,医院方还可以对诊疗过程和诊断、治疗信息进行科学管理。
在语音病案积累的基础上,运用大数据和深度学习技术,挖掘医疗病例语音病案的价值,实现智能化辅助诊疗。
具体地说,智能语音(NLP)是一种底层技术,它的发展为研究人员提供了处理海量数据和丰富数据维度的有效手段,完善医患之间的智能交互和数据监控。仅从2020年的变化来看,大数据管理、语音输入等领域的龙头企业开始谋求上市。
这种思路在司法系统中也同样得到实践,基于自然语言处理技术,AI+智能客服对用户输入进行语义分析,准确识别用户的实际需要,然后根据这些需要在后台知识库中找到最合适的答案。
这就是说,程式化的、重复性的诉讼咨询工作可交给智能客服程序自动处理,遇到复杂的用户问题可转由人工处理,能迅速反应,有效地回答用户的问题。
仔细研究各行业的背景不难发现,智能语音在应用思路上都有一个大主线,那就是如何更好地利用AI赋能行业,思考AI能给人类带来什么,而不是专注于AI本身。
实际上,这条主线在2017年国务院发布的《新一代人工智能发展规划》中已有定调,文件中将“开放源码”作为基本原则之一,并提出了“构建开放协同的人工智能科技创新体系”这一重点任务。
随着业务环境的快速变化,企业间竞争的深入,智能语音技术的开放正在形成一个正反馈,场景需求产生数据,数据推动技术迭代,行业应用将逐渐多样化。
三号智能语音是否仍然是AI时代的入口?
即使上述几种情况都适用于智能语音,答案依然很清楚,不会再出现了。
在谈到原因之前,首先需要回顾一下AI语音的上游技术领域,这是互联网巨头逐鹿的战场。
一次完整的对话互动是一种闭环,由“听懂-理解-回答”这三个步骤组成,其中“听懂”需要语音识别技术;“理解”需要自然语言处理技术;“回答”需要语音合成技术。三步并作两步,相得益彰。语言识别技术是对话交互的起点,它是保证对话交互有效、准确的基础。
又抛出一个相对硬核的技术概念,语音识别解码包括两个部分:声学识别建模以及语言模型的模型训练。
由于操作时对训练数据量和计算量的要求很高,传统的处理器常常不能快速独立完成完整的模型训练,不能满足大规模数据计算的实时要求。因此,能够提供大容量数据处理、存储和高性能计算能力的云计算技术已成为智能语音领域的研究热点。
当前,主流智能语音公司的模式化培训和语音识别,基本上都依赖于BAT御三家提供的云计算服务,其底层技术的发展状况决定着未来智能语音的成长曲线。
实际上,在单个应用场景领域,上游技术领域正向下延伸,吞噬着中游(科大讯飞,云知声)商业应用市场。以云计算为基础的智能语音技术应用市场,其销售规模已经接近了以传统硬件为基础的硬件供应商的市场规模。
这是因为,大多数中小开发者倾向于与“御三家”合作,从而在低成本的平台上获得云端智能语音技术和行业领先的语音解决方案。去年,阿里云智能语音与超过50,000家语音客户达成了合作,涵盖了多个行业领域,其中包括传统行业中的大公司,如中国移动,中央电视台,招商银行。
科技的快速融合和多样化场景显示出了智能语音自身的缺点,谷歌交互设计师吴升知做过对比,语音控制的优点是更直观、更有情趣,大大降低了用户的学习成本,但是线性语音输出却束缚了交互方式本身,所以它不能同时输出太多内容,这是语音最大的缺点。
由此看来,语音交互更多的还是应用于家庭、汽车等相对私人的空间。业界一致认为,交互设计需要充分利用视觉和听觉的互补性,智能语音是其中的重要组成部分,但其使用场景仍然十分有限,不太可能成为单一的AI入口,从目前的发展趋势来看,多模式交互(多种技术融合)才是主流。
腾讯语音首席执行官孙艳庆此前接受采访也谈到,目前智能语音正处于快速落地阶段,除了传统单一技术的直接落地,更多的是深度结合业务场景的定制化形态,甚至是多种技术组合的形式。
因此,智能语音是观察AI商业化发展的一个切入视角,负责开发微软小冰的沈向洋在2016年接受采访时表示,语音的彻底主流化“已经不再是一个要讨论的问题,而是时间和习惯的转变。”
那时,他预计,在噪声和无噪声环境中,计算机语音识别将超过人类的识别率,而视觉识别则可能需要大约十年。
在四年的时间里,智能语音技术的确在潜移默化中改变了我们的生活。但是,随着AI进入更为多样化的生产和消费场景,智能语音已经变成了一种潜流,将与即将到来的AI时代相融合,与下一个仍在迷雾中的革命性交互体验相融合。

温馨提示:内容仅供信息传播,供参考.

来源:亿欧

     
上一篇  红星美凯龙与大型国有银行、全国性股份制银行达成全面战略合作  
下一篇  苹果公布新专利:MacBook无线为iPhone、Apple