首页 > 杭州时报 > 正文

走进声音的黑科技，从淘宝造物节天猫精灵奇声实验室看科技未来
2018-09-13 19:59:43 来源：洞察网评论：0 点击：

9月13日-9月16日，以“奇市西湖”为主题的2018淘宝造物节正式亮相杭州。作为近年来最盛大、最潮流的线下集市，造物节不仅吸引了蔡徐坤、周笔畅、好妹妹乐队等璀璨星光，也汇聚了代表创造力各种奇葩市集与店铺。天猫精灵则把爆款智能音箱里的AI体验落地为线下“奇声实验室”，成为会场中最引人注目的一个互动体验区。

三大体验区，缔造声音“异”世界

[图为“听声上屏”互动区]

天猫精灵“奇声实验室”在淘宝造物节现场设置了三个互动版块，营造出一个沉浸式的新型语音交互体验。

首先是捕捉声音的“听声上屏”，在观众进入真正的声音世界时，不妨先在外面打个卡，对着屏幕来一段，秀段子手技能或者秀恩爱皆可。走进“奇声实验室”，观众将见证更懂你的科技魔法——声音情绪墙。当体验者对着天猫精灵说话时，他能通过语音识别技术，解密你声音里的情绪秘密，简直就是现代版的“魔镜”。

[图为“声音情绪墙”互动区]

随着探索的深入，观众将看到“闻声识人”技术的完美呈现——声纹空间。当你对着天猫精灵喊出“天猫精灵，芝麻开门”时，它将根据体验者的声音来识别你的年龄性别，通过视觉光影和音乐的交织为用户打造一个独一无二的沉浸式空间。

声纹识别，捕捉声音的DNA

声纹识别技术属于生物识别技术的一种，和指纹识别、虹膜识别等生物识别技术类似，该技术可通过声音来判断说话人的身份。

每个人声音都具有个体差异性，正因如此我们才可以迅速判断长坂坡上一声吼的是张飞，大观园中朗朗笑声的是王熙凤。但和人识别声音的方式不同，天猫精灵在进行声纹识别时，包括了收集语音、噪声抑制及有效语音检测（VAD）、特征提取、声音建模以及识别匹配等五个步骤。通俗地理解的话，那就是声纹注册（用户声音信息及声音特征被充分收集）和声纹测试（将用户的声音通过特定的算法进行识别认证）两个阶段。

[声纹识别技术图示]

虽然步骤并不复杂，但在每个步骤中均存在着技术难点，例如怎样在远场交互中获得较多的语音信息建模、在开放嘈杂的环境下如何保证音箱能捕捉并识别你的声音等等。用户声音识别的注册时间一般在60s以上，但让人对着音箱说一分钟时间它才能知道你是谁并和你进行交互，在实际应用中，这显然不现实。

为解决上述难点，天猫精灵采用了最先进的CLDNN+CTC模型。CLDNN优势在于它能很好地模拟人耳感知声音的方式，并可以消除同一人在不同场景发音时对于声音特征的干扰，从而帮助音箱更准确地识别每个人不同的声音特征。CTC模型的先进性在于能使音箱更快速地听懂你说的每个词和句子，精简训练音箱理解人的词汇、语义的过程，使声音的建模和识别匹配更精准、高效。

[图为奇声实验室声纹空间]

此外，天猫精灵还采用动态判决策略等技术手段，使得声纹识别技术识别率高达99%，从而让天猫精灵“闻声识人”技术得以完美应用，同时，天猫精灵也是全球首个达到商用级声纹认证支付的智能音箱。

天猫精灵“奇声实验室”所打造的三个体验区，让普通观众看到技术创新对于人本质需求的理解与关照，它重新展现了声音交互的意义，即声音传递着人的内心（听声上屏）、声音表达着不同的情绪（声音情绪墙）、声音代表着每个人存在在世间的独一无二的特质（声纹空间）。

[图为奇声实验室内馆]

正如人工智能实验室总经理浅雪在此前接受采访时所言，“在人机交互中，人通过语言方式控制家里所有东西的话，人才是中心，而不是设备”。天猫精灵“闻声识人”技术的突破价值也正在于此。

在智能音箱市场日益激烈的当下，天猫精灵在前沿技术上的持续探索、创新与落地转化，也让它从众多同质化的产品中脱颖而出，同时也让普通用户对人工智能的未来有了更多想象空间。

编辑推荐

分享到：

走进声音的黑科技，从淘宝造物节天猫精灵奇声实验室看科技未来
2018-09-13 19:59:43 来源：洞察网评论：0 点击：

频道总排行

频道本月排行

走进声音的黑科技，从淘宝造物节天猫精灵奇声实验室看科技未来 2018-09-13 19:59:43 来源：洞察网 评论：0 点击：

延伸阅读：

频道总排行

频道本月排行

走进声音的黑科技，从淘宝造物节天猫精灵奇声实验室看科技未来
2018-09-13 19:59:43 来源：洞察网评论：0 点击：