搜索
当前位置: 首页 > 资讯 >

最强大脑百度人555彩票网机大战背后原理是什么?

gecimao 发表于 2019-05-11 11:21 | 查看: | 回复:

  【中关村在线软件资讯】1月14日消息:昨晚,江苏卫视《最强大脑》第四季"人机大战"进入三番赛的第二轮,搭载"百度大脑"的"小度"机器人挑战名人堂选手11岁的"听音神童"孙亦廷,双方1:1打成平手。

  本轮的比赛范围划定在"听"的领域,由周杰伦作为出题人,从21位性别相同、年龄相仿、声线极为相似的专业合唱团中,选出三位每个人读一句话,加密后成为断断续续的声音样本再交给小度和孙亦廷,要求他们从合唱声音中识别出三名线人的声音。

  最终,共计三道题目的比赛中,第一道题人工智能"小度"和"最强耳朵"孙亦廷同时判断错误,且结果惊人的一致;第二位线人被小神童孙亦廷识别出,小度判断错误;第三道题孙亦廷判断错误,小度则力挽狂澜,成功识别出第三位线人,双方1:1打为平手。

  对于"小度"一胜一平的领先态势,百度深度学习实验室主任林元庆此前表示,这次人机大战是以实战的方式来,来检验百度人工智能和人类差距。但是,打败人类并不是参赛的目的,而是希望在此过程中不断进步,演化出很好的技术来服务人类。

  最后,百度对本次比赛涉及的技术细节也进行了较详细的阐释:

  本次比赛对机器来说是声纹识别。声纹识别和语音识别一样,都是通过对采集到的语音信号进行分析和处理,提取相应的特征或建立相应的模型,然后据此做出判断;但它与语音识别又有区别,其目的不是识别语音的内容,而是识别说话人的身份。

最强大脑4百度大脑战平听音神童孙亦廷


  1、什么是声纹识别?

  声纹识别简单的说就是判断给定的一句话到底是谁说的技术。早在上世纪40年代末期就有相关研究者开始进行相关技术的探索,主要应用于军事情报领域。其理论基础就是"每个人的说话特性都具有其独特的特征",而决定这种独特特征的主要因素有:

  1)声腔的差异,其包括咽喉、鼻腔、口腔以及胸腔等,这些欺诳的形状、尺寸和位置决定了声腔的差异。因此大家可以感受到,不同的人说话,其声音的频率分布是不同的;

  2)发声的操作方式,主要是指唇、口齿、舌头等部位在发声时的相互作用。一般而言,人在逐渐的学习过程中就会慢慢的形成了自己的声纹特性,正常说话时的声纹状态还是相对稳定的。但是声纹特性仍然具有易变性,因为影响声纹特性的两个因素非常容易受身体状况、年龄、情绪等情况的干扰,555彩票网,从而导致声纹特性的变化。例如:人随着年龄的变化声纹特性也在随之变化,尤其是小时候和成年后;人在感冒时由于鼻腔堵塞等问题会明显感觉到声纹特性的不一致等。当然,人也可以通过刻意的模仿等形成不同的声纹特性。总而言之,声纹特征是类似于虹膜、指纹等一种具有独特性的生物特征。

  声纹识别从任务上来说,主要分为声纹确认技术(1:1)和声纹识别技术(1:N)两类。声纹确认技术回答的是两句话到底是不是一个人说的问题,而声纹识别技术回答的则是"给定的一句话属于样本库中谁说的"问题。本次节目就是采用了"声纹识别"任务,在21位声音特性及其相似的歌手中,凭借着有限的声音样本,来回答样本属于谁的问题。

  2、百度大脑如何提取声纹特征?算法如何?

  1)声学特征提取

  语音信号可以认为是一种短时平稳信号和长时非平稳信号,其长时的非平稳特性是由于发音器官的物理运动过程变化而产生的。从发音机理上来说,人在发出不同种类的声音时,声道的情况是不一样的,各种器官的相互作用,会形成不同的声道模型,而这种相互作用的变化所形成的不同发声差异是非线性的。但是,发声器官的运动又存在一定的惯性,所以在短时间内,我们认为语音信号还是可以当成平稳信号来处理,这个短时一般范围在10到30毫秒之间。

  这个意思就是说语音信号的相关特征参数的分布规律在短时间(10-30ms)内可以认为是一致的,而在长时间来看则是有明显变化的。在数字信号处理时,一般而言我们都期望对平稳信号进行时频分析,从而提取特征。因此,在对语音信号进行特征提取的时候,我们会有一个20ms左右的时间窗,在这个时间窗内我们认为语音信号是平稳的。然后以这个窗为单位在语音信号上进行滑动,每一个时间窗都可以提取出一个能够表征这个时间窗内信号的特征,从而就得到了语音信号的特征序列。这个过程,我们称之为声学特征提取。这个特征能够表征出在这个时间窗内的语音信号相关信息。如下图所示:

最强大脑4百度大脑战平听音神童孙亦廷


  这样,我们就能够将一段语音转化得到一个以帧为单位的特征序列。由于人在说话时的随机性,不可能得到两段完全一模一样的语音,即便是同一个人连续说同样的内容时,其语音时长和特性都不能完全一致。因此,一般而言每段语音得到的特征序列长度是不一样的。

  在时间窗里采取的不同的信号处理方式,就会得到不同的特征,目前常用的特征有滤波器组fbank,梅尔频率倒谱系数MFCC以及感知线性预测系数PLP特征等。然而这些特征所含有的信息较为冗余,我们还需要进一步的方法将这些特征中所含有的说话人信息进行提纯。

  2)说话人特征提取

  我们在提取说话人特征的过程中采用了经典的DNN-ivector系统以及基于端到端深度神经网络的说话人特征(Dvector)提取系统。两套系统从不同的角度实现了对说话人特征的抓取。

  A.算法1DNN-ivector

最强大脑4百度大脑战平听音神童孙亦廷


  这是目前被广泛采用的声纹识别系统。其主要特点就是将之前提取的声学特征通过按照一定的发声单元对齐后投影到一个较低的线性空间中,然后进行说话人信息的挖掘。直观上来说,可以理解成是在挖掘"不同的人在发同一个音时的区别是什么?"。

随机为您推荐歌词
推荐歌词
热门歌词
最近更新
歌词排行

版权声明:本站资源均来自互联网,如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

Copyright 555彩票网 2012-2013 555彩票网 版权所有 555彩票网 地图 sitemap

回顶部