这项科技会引领硅谷的下一次革命吗?

来源: 财富中文网   时间: 2018.11.13  打印本页  分享:
亚马逊、苹果、谷歌等公司正在争先后恐地投入数十亿美元,以使语音识别技术成为人类与互联网交互的主要途径。这也将是史蒂夫·乔布斯发布iPhone以来最重要的技术革命。


    短短四年前,亚马逊还只是一家很成功的在线零售商,也是美国商用在线主机服务的主要供应商。此外它有也自己的消费电子产品,即人们熟知的Kindle电子书。Kindle虽然是一款大胆的作品,但考虑到亚马逊本身就是卖书起家,这一尝试自然是可以理解的。现在,亚马逊的Echo智能音箱和它的Alexa语音识别引擎又走进了很多家庭,可以说亚马逊在个人计算与通讯领域,已经掀起了自史蒂夫·乔布斯发布iPhone以来的最重要的技术革命。

    一开始,它只不过是个看似新奇的小玩意儿。2014年11月,亚马逊发布了Echo智能音箱,它使用了人工智能技术来倾听人类的提问。Echo会扫描联网数据库中的数百万个单词,不论你提出的问题是深邃还是浅显,它都能给出答案。目前,Echo智能音箱的销量已达到4700多万台,其用户来自从阿尔巴尼亚到赞比亚的80多个国家,其服务器每天要回答用户的1.3亿多个问题。亚马逊的语音识别引擎Alexa得名于亚历山大港的古埃及图书馆,它可以按照用户的要求播放音乐,提供天气预报信息或体育比赛的得分,甚至可以远程调节用户家里的室温。它还会讲笑话,回答一些琐碎的问题,抖个机灵,或者开些无伤大雅的玩笑。(比如你可以让它放个屁来听听)。

    亚马逊并没有“发明”语音识别技术,实际上语音识别技术已经发明出来几十年了。亚马逊甚至并不是第一家提供主流语音识别应用的科技巨头。苹果的Siri和谷歌语音助手的上市时间要比它早得多。微软Cortana的发布基本上与Alexa在同一时期。但是随着Echo的广泛成功,语音识别领域的竞争骤然激烈了起来,各大科技厂商纷纷投下重注,试图将这些“智能”家居设备变得跟PC甚至和智能手机一样重要。正如谷歌的搜索引擎算法彻底改变了人们的信息消费模式,进而颠覆了整个广告行业一样,由人工智能技术驱动的语音识别技术也会推动类似的革命。亚马逊Alexa部门的首席科学家罗希特·普拉萨德表示:“我们想抹平用户使用互联网时的不顺畅,而最自然的方法就是声音。Alexa不是那种一下子给你展示很多搜索结果,然后说‘选一个吧’的那种搜索引擎,而是会直接告诉你答案。”

    各大科技厂商纷纷将人工智能与语音识别技术相结合,其目的远远不只是为了推出一款圣诞购物季最热卖的小家电这么简单。目前,谷歌、苹果、Facebook和微软等公司纷纷砸下重金研发竞品。据投资公司Loup Ventures的分析师吉恩·蒙斯特估算,上述几家科技巨头每年在语音识别技术上的研发支出合计超过了50亿美元,约占年度研发预算总额的10%。他认为,语音识别技术的出现是计算领域的一个“具有重大意义的变化”。他认为,语音指令很快将取代键盘和触屏,成为“我们与互联网交互的最常见的方式”。

    随着各大厂商纷纷投入重注,语音识别助手领域的竞争也变得愈发激烈。从研究公司Canalys提供的数据看,目前亚马逊在这一领域暂时领先,它在全球联网音箱市场上的份额达到了42%。谷歌的Home智能家居设备以34%的份额暂居亚军,它搭载了谷歌自研的谷歌助手,据说近期的销量已经反超了亚马逊。苹果的HomePod价格最贵,加入战局也是最晚,虽然市场占有率排名第三,但份额仍远远不如前面两家。去年10月,Facebook也推出了自己的Portal系列影音设备,它们也具备部分语音识别功能。尤其值得注意的是,它搭载的也是亚马逊的Alexa语音识别引擎。

 

 

 

 

 

 

 

 

图片来源:Pope: Heinz-Dieter Falkenstein—Getty images; Edison: Bettmann/Getty Images; Audrey: Courtesy of Nokia Bell Labs: Telephone: Sheila Terry—Science Source; Shoebox: Courtesy of IBM Corporate Archives, © 1961 Corporation; HAL: Kevin Bray—MGM/Photofest; Harpy: Raj Reddy—Youtube; Devices: Courtesy of Amazon, Apple, and Google

    语音识别系统既依赖于计算机科学,也依赖于物理学。语音会产生空气振动,语音引擎则会接受模拟声波,然后将其转换成数字格式,计算机就会分析这些数据的意义,而人工智能则能够加快这一过程。人工智能首先要搞清楚它收到的语音是不是指向它的系统的,因此它首先要检测客户选定的“唤醒词”,比如“Alexa”。然后,系统会使用机器学习模型,对所接受的数据进行猜测。由于这个模型已经用几百万个用户贡献的语料库训练过,因此猜测的准确度是很高的。谷歌助手的工程副总裁约翰·斯考威克解释道:“语音识别系统首先会识别声音,然后会把这句话放到语境中去理解。比如说,如果我说了一句:‘天气怎么样?’系统就知道,我所指的是一个国家或一个城市的天气。我们的数据库中有500万个单词的英文词汇,如果不结合语境,从500万个单词中识别出一个词是极其困难的。但如果人工智能知道你问的是一个城市的情况,那么这就把范围缩小到了三万分之一,这样猜中就简单多了。”

    有了强大的计算能力,系统就有了很多学习的机会。举个真实的例子,为了让Alexa打开家里的微波炉,语音识别引擎首先要理解这个指令。也就是说,它得能够听懂各州各省的方言,小孩子的高调门儿,或者是老外的怪腔怪调。与此同时,它还要过滤广播、音乐等无关的背景音。然后,人们使用微波炉时的指令也是不一样的。有人可能会说:“把我的饭重新热一下”;有人则可能说:“打开微波炉”或“用微波炉把饭热两分钟。”Alexa这种语音识别应用会将用户的问题与数据库中的类似指令进行对比,从而明白“把我的饭重新热一下”也是用户有可能下的指令。

    语音识别技术之所以近来大受欢迎,也是由于它在将人类指令转化为行动方面表现得相当出色。谷歌公司的斯考威克表示,谷歌的语音识别引擎已经能达到95%的准确率,比2013年的80%有了明显提高,几乎与人类的理解能力不相上下了。近来该领域的一个重大成绩是语音识别引擎已经学会了如何过滤背景噪音。不过只有当用户的指令或问题比较简单时,系统才能达到这样高的识别率——比如问它:“最新的《谍中谍6》什么时候上映?”如果你就某件事征求Alexa或谷歌助手的意见,或是试图跟它进行一场拉锯式的谈话,系统就要么会给出一个预先编程好的幽默答案,要么直接提出抗议:“我不知道怎么回答。”

    在消费者看来,语音识别设备不仅实用,有时也能给人带来快乐。而在制造它们的科技巨头看来,语音识别设备虽小,但是极为高效的收集数据者。大约60%的亚马逊Echo和谷歌Home的用户至少将语音助手与一种智能家居设备相连(比如恒温器、安全系统等),而这些智能家居设备可以透露关于用户生活的无数细节。对于亚马逊、谷歌和苹果这些公司,他们收集的数据越多,就能更好地服务消费者——不管是通过附加服务、订阅服务,还是代表其他商家打广告。

    这个领域的商机也是显而易见的。一位消费者只要将Echo与恒温器相连,那么如果他看到了智能照明系统的广告,就也会倾向于购买。如果你对隐私特别在意,你或许会觉得被“窃听”的感觉很不舒服。但借助这项技术,科技巨头们已经坐拥了海量个人数据,反过来这些数据也使他们能更有效地向消费者进行营销。

    这几家科技巨头的总体战略各不相同,对收集来的数据的使用方式也略有差异。亚马逊表示,Alexa收集来的数据主要用于该软件的后续研发,以使它变得更加智能,对用户更加实用。亚马逊称,Alexa进化得越好,用户就会越能看到亚马逊的产品和服务的价值——包括它的Prime会员计划。尽管亚马逊也在大力推动广告业务(市场研究机构eMarketer认为,2018年亚马逊的数字广告业务收入将达到46.1亿美元),但亚马逊的一位发言人表示,公司目前不会利用Alexa的数据卖广告。谷歌虽然拥有庞大的广告业务,却也一反常态地表示,不会使用语音识别技术收集的数据卖广告。苹果向来号称不愿利用顾客数据换取商业利益,此次自然也不例外,苹果表示,该公司从语音识别技术中获取的用户数据将仅仅用于改善用户体验——以及销售更多昂贵的HomePod设备。

    虽然亚马逊是做购物起家的,但大多数用户并未使用语音识别设备帮助他们购物。亚马逊不愿透露有多少Echo的用户用它购物,不过咨询机构Codex集团最近对网购图书者的一项调查显示,只有8%的用户通过Echo买过书,有13%的用户通过它听过电子书。研究机构Canalys的分析师文森特·蒂尔克表示:“人是习惯性动物,如果你想买一个咖啡杯,你很难对智能音箱描述出你喜欢的杯子的样式。”

    亚马逊表示,公司并未过分关注Echo作为购物助手的作用,不过它仍然希望亚马逊的智能家居设备能反哺公司的零售业务。亚马逊的自然语言处理科学家普拉萨德表示:“人总是根据以前的购物习惯去购物。如果你想买几节电池,这种东西,你既不需要亲眼去挑,也不需要记住买一种。如果以前你从没买过电池,我们当然会建议你买亚马逊品牌的。”

    语音助手在购物上的作用远远不止买几节电池。目前,很多商家都想跟这些科技巨头合作,并利用这些平台。据OC&C战略咨询公司预测,到2022年,语音识别购物的销售额将从现在的20亿美元增长至400亿美元。现在,有几款智能家居设备的迭代产品已经展现了这个潜力。比如亚马逊和谷歌都推出了带屏幕的智能家居设备,它们看起来有点像小型电脑和电视机的跨界产品,因此更适合用来网购。2017年春天,亚马逊推出了230美元的Echo Show。跟其他Echo设备一样,Echo Show也内置了Alexa应用,但用户也能通过它看到图像。这样一来,消费者就可以看见自己想买的商品和购物清单了。同时,用户也可以用它来看电视、听音乐、看监控视频、旅行照片等等。而在做这些的时候,用户无需点击任何一个按键,也完全不需要操纵鼠标。

    谷歌已经与四家消费电子厂商展开了合作,有些厂商最近已经开售安装了谷歌助手的智能屏产品。比如联想的Smart Display智能显示器看起来很像Facebook的Portal产品,零售价为250美元,与JBL的Link View设备相同。LG也计划推出搭载谷歌助手的ThinQ View设备。今年10月,谷歌也开始销售自己Home Hub设备了,该设备搭载了一块7寸显示屏,售价为149美元。

    从长远来看,谷歌认为,拥有屏幕将使语音购物变得更容易。谷歌并不像亚马逊那样直接销售产品,但它的“谷歌购物”网站却将零售商与谷歌搜索引擎直接相连。目前,谷歌已经将Home设备打造成一个购物工具了。比如谷歌与星巴克有合作,用户只需要告诉谷歌助手点一杯“老样子”,饮品就会自动送上门。去年,谷歌还巩固了与全球最大零售商沃尔玛的合作关系。用户可将沃尔玛账户与谷歌购物网站相连,这样通过谷歌的Home设备,用户即可检查附近的沃尔玛门店里有没有自己喜欢的运动鞋,或是预订一台平板电视当日提取。如果你不知道离你最近的沃尔玛在哪儿,它也能帮你找到。

    而视觉识别技术(它可以看作是人工智能语音识别技术的小弟,这种技术早就被用来在人群中对比罪犯了)的兴起,将使人们在这些设备上购物变得更加便利。今年9月,亚马逊宣布,它正在用Snapchat相机测试一款新应用。消费只要用Snapchat的相机拍下某个产品或者条形码的照片,就能在屏幕上看到亚马逊的产品页面。不难想象,要不了多久,用户就能在他们Echo Show上实现类似功能,到时候用户不光能看见产品的价格和评价,估计还能看见该产品是否支持Prime的两天免费快递上门服务。

    虽然这项技术的前景令人兴奋,可是对那些对高科技不敏感的人来说,他们可能得花一些时间,才能习惯跟机器对话。现在很多科技公司的社会公信力不高,他们必须得让消费者相信,这些设备并不是在出于邪恶的原因在窃听他们。实际上,智能扬声器只有检测到“唤醒词”才会切换到对话模式,比如“Alexa”或者“Hey Google”。今年5月,亚马逊不小心将一位波特兰市的高管与他妻子关于地板的一段对话发送给了他的一名员工。亚马逊对此次事故公开道歉,并表示它“曲解”了这段对话。

    口头指令的出错可能要远远超过打字输入的命令。有些时候,你甚至可能为此付出代价。比如去年,达拉斯的一个6岁的小女孩在跟Alexa讨论饼干和玩偶等话题。几天后,快递员就给她家送来了4磅饼干和一个价值170美元的玩偶。亚马逊表示,Alexa是有家长控制功有的,如果启用了该功能,这次事故本不会发生。

    不管怎样,人工智能语音识别的大规模采用很可能会是自然而然的事,毕竟它给我们带来了更多的便利。目前,全球的人工智能语音识别设备已经超过1亿台,语音成为人与机器的主要交互媒介只不过是个时间问题——哪怕有时这种对话只是毫无营养的恶搞和尬笑。(财富中文网)