注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

易拉罐的博客

心静自然凉

 
 
 

日志

 
 

转 基于神经网络的信息识别处理方法(专利号:03137640.1)  

2010-12-16 22:27:20|  分类: 神经网络 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

一、所属技术领域

本发明涉及信息处理中的一种信息识别处理方法,具体涉及一种利用了神经网络技术的信息识别处理方法。本发明还涉及该信息识别处理方法在语音识别和图像识别上的应用。

二、背景技术

神经网络作为一种信息处理器,是目前最被广泛关注的研究领域之一,它的主要特性在于使用空间分布元件将输入信号非线性变换为输出信号和在密集互连结构中大量地并行处理信息,这种处理器是一种具有强大功能和容错的处理器件。而且神经网络还可以通过依据于实例的训练加以编程,而不是通过例如常规处理器领域中的规定算法,其训练可以在或不在管理程序下而达到。因此,在某些需要对复杂信息进行实时处理的场合,例如在语音识别、图像识别等方面,人工神经网络结构就比数字式计算机结构显示出了巨大的优越性,不仅信息处理功能强、而且处理速度快。

现已开发出诸如自适应谐振理论(ART)、反向传播(BP)网络、对流传播网络(CPN)、Hopfield网、认知机(Neocogntion)、自组织映射器(SOM)等多种结构的神经网络,应用于复杂信息的判断和识别处理。上述各种神经网络结构各有长处,又存在着各自不同的缺陷。

语音识别技术是当今计算机技术研究的热门课题,它最初起源于50年代初期的Audry语音识别系统,可以识别10个英文数字。随着计算机技术的飞速发展,语音识别技术也在不断地创新发展,相断出现了动态规划技术(DP)、线性预测分析技术(LP)、动态时间归整技术(DTW)等语音识别技术和矢量量化(VQ)、隐含马尔可夫模型(HMM)等语音识别理论。

基于动态时间归整技术的语音识别技术具有系统小,识别速度快的特点,对于小词汇量的语音识别来说非常高效,但是针对大词汇量的语音识别时则显的识别率较低,效率低下。

基于统计的隐含马尔可夫模型语音识别可能是目前最成功的语音识别方法,也被许多产品化的软件所采用作为系统内核,该模型对于大词汇量具有很高的识别率,能够达到95%以上。但是该语音识别方法系统庞大,计算方法复杂,特别是该方法需要建立一个较大的语音库,仅对特定人的特定语音具有较高的识别率,而且还需有一个较长的适应周期,目前仍然存在着对非特定人的适配性差,鲁棒性能差的问题需要解决。

以上种种因素,极大地制约了语音识别技术的发展应用。而从理论上讲,也只有基于神经网络的语音识别技术,配合基于神经网络的人工智能系统,才能真正做到听懂、并理解人类语言,做到100%的识别率,从而实现真正意义上的语音识别。

三、发明内容

本发明的目的是建立一种新的基于神经网络的信息识别处理方法。

提供该神经网络信息识别处理方法在语音识别上的应用,是本发明的又一发明目的。

本发明的另一发明目的是提供该神经网络信息识别处理方法在图像识别上的应用。

本发明的神经网络系统由输入神经元、若干层中间兴奋类神经元与抑制类神经元、输出神经元及其之间的链路共同组成,并储存在存贮器中。神经网络信息识别处理的具体方法是:信息采集器采集的信息被转换成电平表后,输入到神经网络系统的输入神经元中,该输入神经元将输入的高电平信号等同于神经元的传递信号,一方面通过兴奋类神经元下延传递给一个或多个兴奋类神经元,经过若干层次兴奋类神经元之间的传递,直至传递到输出神经元,形成自输入神经元经中间神经元到输出神经元的链路通道,另一方面,输入神经元还通过抑制类神经元下延传递给一个或多个抑制类神经元,也经过若干层次抑制类神经元之间的传递,将抑制信号传递到兴奋类神经元或输出神经元上,阻断在兴奋类神经链路中的错误传递,从而得到一个与输入的信息相对应的正确输出结果。

神经网络系统中的每一个神经元都是由以下结构构成:神经元类型+传递计数器+下延连接区+处理标志。

其中,神经元的类型包括输入接口类、中间兴奋类、中间抑制类和输出接口类四类。输入接口类的神经元被定义为单输入多输出的神经元,该类神经元只接受两态输入,并将输入信号下延连接传递给一个或多个兴奋类或抑制类的神经元;中间类的神经元为多输入多输出的神经元,它起到连接输入和输出神经元的桥梁作用,并承担信息的传递、阻断以及延时;输出接口类神经元被定义为多输入单输出的特殊神经元,每一个此类的神经元都表示一个相应的信息输出,也就是经过神经网络处理之后,与输入信息做对应关系的结果输出。

在每个神经元的传递计数器上都设定有一个确定值;神经元的下延连接区上记录着每一个向下延连接的对方神经元的地址;处理标志是指示系统对神经元进行扫描处理的标志,当神经元处于传递态时,处理标志设定为真,等待系统前来处理。

神经元链路通道的形成与断开是在传递过程中,由上延神经元来决定神经元传递计数器数值的改变,当传递计数器从小于零变为大于零时,该神经元表现为传递态,按自身的属性将兴奋或抑制信号传递给下延神经元,如果与下延神经元的类型相同,则下延神经元的传递计数器加一,否则减一;如果传递计数器从大于零变为小于零时,该神经元也表现为传递态,只是如果与下延神经元的类型相同,则下延神经元的传递计数器减一,否则加一;当传递计数器没有通过零值,该神经元表现为常态;系统对所有处于传递态的神经元进行扫描处理,处理完的神经元由传递态变为常态,系统对处于常态的神经元不进行处理,如此重复,直至传递到的某个输出神经元的传递计数器从小于零变为大于零,即该输出神经元变为传递态时,得到一个结果输出。

对于组成神经网络的神经元而言,其中间兴奋类和抑制类神经元的具体层数是不确定的,而且层与层之间也没有相互承接关系,信息可以跨位、跨层传递,并且对于单个神经元的信息传递方向由建立时确定,既可以正向传递,也可以逆向作为反馈,同时,不同类型的神经元之间也可以进行信息传递。

神经网络系统是采用隔位跳行跳层的扫描方式扫描所有需要处理的神经元,采用这种扫描方式,可以使除边缘以外的每个神经元向任何方向延伸的趋势都是基本相同的,从而做到输入信号的延时传递,以同步到达输出神经元。例如,对于一个4×4×4的神经网络,

1  2  3  4      17 18 19 20     33 34 35 36     49 50 51 52

5  6  7  8      21 22 23 24     37 38 39 40     53 54 55 56

9  10 11 12     25 26 27 28     41 42 43 44     57 58 59 60

13 14 15 16     29 30 31 32     45 46 47 48     61 62 63 64

一层             二层            三层            四层

系统扫描的顺序应为:1  3  4  2  9  11  12  10  13  15  16  14  5  7  8  6  33  35  36  34  41  43  44  42  45  47  48  46  37  39  40  38  49  51  52  50  57  59  60  58  61  63  64  62  53  55  56  54  17  19  20  18  25  27  28  26  29  31  32  30  21  23  24  22  1……如此反复。

经过上述方式扫描,使输入神经元上传递的不同时间维的信号中,先收到的信号经过较多的传递神经元进行延时,后收到的信号经过较少的传递神经元,所有信号能够基本同时传递到输出神经元,从而达到延时同步的目的。

由于神经网络是一个由若干个神经元构成的并行处理系统,每一个神经元都相当于一个单机,神经元与神经元之间的运算不存在先后处理的关系,只要做好同步及数据交换,神经网络内部就可以任意切分,而不影响整体的运行。因此,如果需要设计的神经网络过于庞大的话,就可以使用多台计算机组成并行网络,同时对神经网络进行处理,以解决计算中的瓶颈问题,使各种规模的神经网络都能拥有一个合适的硬件运行环境。

对于由多台计算机组成的并行网络,可以选择一台计算机作为主控计算机,其它计算机作为辅助计算机,同时运行进行信息识别处理。它的作用在于能够提供一个适合可以进行大规模的复杂数据库查找、修改、增加、删除操作,特别是能够并行处理操作的运行环境。该并行网络可以在单CPU的微机如个人电脑、商用微机中提供一个模拟的并行处理环境,也可以将若干个微型单片机组成一个超大型的计算机系统,还可以将若干台连网的微机虚拟成为一台超级并行计算机系统,使其计算能力无限扩展。

上述的神经网络信息识别处理方法可以在语音识别方面得到很好的应用,具体应用步骤为:

a、根据语音听觉模型将声音频谱作非对称分段,每一小段计算出一个中心频率,以该中心频率为固有频率制作理想状态弹簧震子模型,并将所有弹簧震子按照响应频率的高低顺序进行排序;弹簧震子的倔强系数K为可变参数,当输出频率处在相邻弹簧震子中心频率的边界之内时,弹簧震子会自动调整K值,使弹簧震子的固有频率等于输出频率,始终保持共振幅度最大,若输出频率不在相邻弹簧震子中心频率之间,则固有频率等于初始值。

b、采用音频脉冲编码方式输入语音,将声波信号量化为音频数据流,由系统进行读取。

c、当读取的输入音频数据流量化值与某一个弹簧震子模型的固有频率相同时,该弹簧震子会产生强烈的共振现象,记录弹簧震子的共振位移量,组成输入语音的动态频谱电平表。

d、将频谱电平表输入神经网络系统的输入神经元,输入神经元将输入的高电平信号等同于神经元的传递信号,一方面通过兴奋类神经元下延传递给一个或多个兴奋类神经元,经过若干层次兴奋类神经元之间的传递,直至传递到输出神经元,形成自输入神经元经中间神经元到输出神经元的链路通道,另一方面,输入神经元还通过抑制类神经元下延传递给一个或多个抑制类神经元,也经过若干层次抑制类神经元之间的传递,将抑制信号传递到兴奋类神经元或输出神经元上,阻断在兴奋类神经链路中的错误传递,从而得到一个与输入语音相对应的发音概率队列。

e、将每一个发音的概率队列与前后发音的概率队列进行组合筛选,组成句子输出。

f、对前端输出的句子可能的错误进行语音纠错识别,得到完全正确的句子输出。

关于语音纠错识别的具体过程是:

a、在内存中建立输出循环映射队列,用于部分容纳前端输出句子的文字与发音,并与用户界面的输出同步。

b、当映射队列接收到一个由语音纠错系统确定的关键字词的发音时,判断其之前紧跟的是否为一个词组,并判断其后接收的下一个文字的发音是否为该词组中的某一个文字的发音。

c、如果条件满足,根据改错特定语法,从词组向前搜索并定位该同发音的文字,用词组中的文字替换搜索到的同发音文字。

d、如果条件不满足,结束语音纠错识别,继续进行语音识别。

利用神经网络抗干扰能力强、识别准确性好的特性,还可以将神经网络信息识别处理方法应用到图像或影像的识别中。图像、影像的识别就是通过图像输入设备采集到数字图像,再由训练好的神经网络处理得到一个相应的结果输出的过程。

其中,数字图像可以由数码照相机、数码摄像机、数字探头或具有模/数转换功能的模拟信息采集设备转换所得到。由于神经网络的输入窗口只接收2值输入,所以任何的数字图像都要预先进行2值转换。图像转化时,先将图像分解成一个个像素,每个像素再分解成多种单色,每个单色具有不同的灰度,根据灰度的色阶,制定出相应的输入神经元,一个像素对应的输入神经元个数为色阶数×配色个数,将拟识别的图像转换为2值图像。

将转换后的2值图像直接输入到神经网络的输入神经元,该输入神经元将输入的高电平信号等同于神经元的传递信号,一方面通过兴奋类神经元下延传递给一个或多个兴奋类神经元,经过若干层次兴奋类神经元之间的传递,直至传递到输出神经元,形成自输入神经元经中间神经元到输出神经元的链路通道,另一方面,输入神经元还通过抑制类神经元下延传递给一个或多个抑制类神经元,也经过若干层次抑制类神经元之间的传递,将抑制信号传递到兴奋类神经元或输出神经元上,阻断在兴奋类神经链路中的错误传递,经过兴奋类与抑制类神经网络的相互作用,最终产生一个与曾经训练过的输入信息相对应的输出结果,并将其转化为其他系统的控制量。

图像、影像的识别处理是对处在时间维上的一系列图片当作一个整体来进行的识别,由于本发明的神经网络具有延时处理能力,可以根据识别目标的时间长短预先设计相应的神经网络中间层层数,输入的图像经过延时后与随后输入的图像同时作用于输出神经元,得到相应的输出结果,因此,通过本发明可以识别动态影像。当然,神经网络的这种“延时”处理方法还能够对任意多维的数据具有很好的处理能力,例如,可以识别三维立体动态影像等等。

本发明的神经网络信息识别处理方法还可以应用在身份识别(指纹、头像、声纹、视网膜等)、图片检索、文字识别、目标跟踪、目标锁定、智能控制等诸多领域。

本发明的神经网络信息识别处理方法具有以下几方面的优点:

1、识别处理速度快。

本发明的神经网络是通过传递来处理信息,处理速度就相当于传递速度,从理论上讲该传递速度可以达到信号处理的极限速度。

2、适配性强。

本发明的神经网络系统有标准的输入、输出神经元接口规范,可以适用于任何信息处理领域,并可以根据用户的需求确定不同规模的神经网络处理系统,而且结果输出既可以作为其他系统的控制源,也可以直接当作信息输出给用户。

3、可扩充性强。

本发明的神经网络在实际使用时,如果处理的信息复杂度增加,则可以在原有的神经网络基础上扩大网络规模,并通过扩容性训练,重新生成新的神经处理网络,使训练量大大减少。

4、组网灵活。

本发明神经网络中的神经元之间连接方式多样,可以实现各种各样的功能,如反射、反馈、振荡、中断、激活、抑制、筛选、联想、推理、顿悟等等。此外,硬件运行平台的搭建也可以多种多样,可以用单机,也可以将不同类型的单片机、个人机、商业机等机型组织到一起作为计算存储的运行平台。

5、容错性更好。

由于引入了抑制类神经元,对系统的错误输出具有了更好的可操作性,通过前期的训练工作,确定下来的神经网络抗干扰能力将更强,能使信息处理获得更好的准确性。

6、训练相对简单容易。

由于本发明的神经网络具有良好的可扩充性,训练时只需训练新增内容就行,新生成的系统具有良好的向下兼容性,所以使训练工作大大减少。

7、能处理动态信息。

传统的神经网络模型在处理动态信息时较为困难,本发明却能够实时地进行处理,相当于具有了“时间记忆”功能,对于处在时间片段内的信息具有很好的认知处理能力。

特别是在语音识别处理方面,本发明具有更多的优越性。

一般语音识别处理方法的识别率是针对专人专项测试记录后得到的,可以在95~98%之间,而对于非特定人的测试,根本达不到上述标准,大部分人的识别率仅处在60~90%之间,对于非特定人的适配性差。本发明应用神经网络语音识别方法,解决了这个问题,通过普适性的一般训练后,就能够将不同方言,不同语音语调的发音给出唯一的输出,不必再对系统进行适应性训练,也不需要用户再进行训练,对于非特定人的识别适配性大大增强,识别率大大提高。

本发明的语音识别方法能够自动适应陌生环境,使用者无需进行训练,就可以直接使用,具有其它语音识别方法无法比拟的优势。

噪音一直是语音识别的大敌,处理不好,会导致系统的鲁棒性(Robust)变差。本发明直接对声音的采集进行降噪,系统采用动态网络调整技术自动生成对抗信号来抵制输入噪声,不再需要添加额外设备,没有特定场合限制,就有效地降低了噪声,提高了信噪比,产生了非常好的识别效果。同时,还利用了神经网络的容错特性,来进一步“消化”噪音,降低噪音对系统输出的影响。

系统始终以动态调整运行参数,使每一部分时时运行在最佳状态,获得最好的输出结果,提高识别率。

四、具体实施方式

本实施例是关于神经网络信息识别处理方法应用于语音识别的一个具体描述,其识别过程为:

1、语音输入

采用音频脉冲编码方式,直接将语音的声波量化为音频数据流输入系统。

高精度、高采样频率能使采样后的编码在还原时更加逼真,使采样生成的编码也随之成倍增加,处理所需要的运算资源更是成倍增加。一般语音识别方法都采用10KHz或16KHz的采样频率,我们发现,低的采样频率和采样精度会将语音信号中许多的有用信息丢失,使识别的准确度降低,本发明为能更完全地提取语音效果中的有效成分,首次采用了22KHz高采样频率,远高于其他识别方法,为后续识别的精确度、准确度提供了很好的保证。

2、音频数据缓冲区

由于神经网络内部的每个系统的运行处理所花费的时间会根据内容、状态等因素而发生改变,有可能在某一时刻未能及时的对输入的数据进行处理,而在另一时刻又可能比较闲暇,所以需要将时时产生的音频数据流先存入缓冲区队列,再由时钟同步单元控制读取。

缓冲区为一个环状队列,定义有写入指针与读出指针,整个环遵循着先写入再读出的原则进行工作,如果读出的过慢,写入的指针沿环一周后追上读出指针时,则申请更多的内存来扩大缓冲区,但如果写入的相对较慢,读出指针紧随写入指针之后,则探测写入指针之前的内存是否有大量空闲,如有则部分释放,使操作系统能使用更多的内存。

3、滤波器阵列

目前一般的语音识别方法是将数字信号直接使用傅立叶变换(FFT)方式来做时域与频域的分析,再将分析结果提供给识别模型进行识别。其优点是分析准确,详细,但缺点是需要对时域和频域进行逐个帧的处理,计算方法复杂,计算量庞大,处理速度相对较慢,而且对系统和硬件的要求较高,抗干扰能力差。本发明采用滤波器阵列将量化的数据流转化为动态的频谱电平表,其滤波系统基本模拟了人耳耳蜗的生物物理过程,结合人耳的听觉特性,并采用动态弹簧振子模型算法,使滤波器阵列的运算更加简化,结构更加简单,处理速度更快,又能方便地与神经网络进行连接,保证了系统对语音有效成分提取的准确与高效。其具体过程为:

a、根据语音的听觉模型将频谱作非对称分段,每一个小段计算出一个中心频率,再以中心频率为固有频率制成理想状态的震子模型。

b、所有的弹簧震子按响应频率的高低顺序排序,以音频数据流的量化值作为推动弹簧震子的外力,当某个弹簧震子的固有频率与输入音频数据流量化值相同时,就会产生强烈的共振现象。

c、记录所有弹簧震子的位移量,生成一个频谱电平表,完成频谱的输出。

滤波器阵列可以根据不同的需要,确定不同的分段精度,分段越精细,弹簧震子就越多,输出也就越准确,但计算量也会相应增大。

为了能在较少弹簧震子的情况下系统也能有较好的响应输出,本发明将每个弹簧震子的倔强系数K值制成了可变参数,输出频率处在相邻震子中心频率边界之内,自动调整K值,使震子固有频率等于输出频率,使共振幅度最大,输出频率不在相邻震子中心频率边界之间,调整K值,使震子固有频率等于初始值。

因为每个弹簧震子的输出波形振幅差异较大,干拢信号也较多,为了使每个弹簧震子的输出都在一个有限的、统一的范围之内,需要根据神经处理系统的输出,动态生成一个频谱电平表。

电平表取值范围的确定为:当电平表的最小值对应的接口神经始终处于兴奋态时,则将该弹簧震子对应的最小振幅值升高,如长时间处于抑制态时,则将最小振幅值降低,当电平表的最大值对应的接口神经处于兴奋态时,则比较弹簧震子的振幅与最大振幅,将大的值当作最大振幅,并且该值会随时间缓慢降低,然后在最小振幅值与最大振幅值之间做n份的指数切分,每一份对应一个电平值。

作为神经网络的输入接口,滤波器阵列还具备了自我调节的功能,可以根据来自神经网络的反馈信号自动升高或降低某一频带的响应灵敏度,使系统抛弃复杂的降噪系统,提高恶劣环境下的区别能力。

4、神经网络识别处理系统

神经网络处理系统是以人工神经网络为基础,神经网络的运算处理是通过神经元之间的信息传递与阻断操作来完成的,每一组链路通道都代表一个相应的信息处理过程。

由滤波器阵列输送的信号接入输入神经元,经若干次中间神经元的下延传递后,建立一个由输入神经元到输出神经元的链路通道,最终在某个输出神经元产生一个与输入信号相对应的结果输出,其中只有在该神经元处于传递态时系统才对中间神经元进行扫描处理,在该神经元处于常态时神经元与以下的神经元之间保持原来的链连关系。如此重复处理,直至建立一个正确的链路通道。

神经网络系统是一个复杂的信息并行处理系统,由于是用普通计算机   成为一个由若干个神经元组成的并行神经网络计算机,神经网络内部的每个系统的运行处理时间会根据计算内容、状态等原因而发生改变,但作为一个神经网络整体必须协同动作,因此在组成神经元的神经网络处理单元中设置时钟同步单元,时钟同步单元每次整体扫描处理的最后一个处理单元处理完毕后,为一个扫描周期,并且与缓冲区中的数据同步作用于读取指针的控制。

5、语音词汇辨别系统

输入的语音信号经过神经网络识别处理系统处理后,得到的是一个与输入的语音相对应的发音概率队列,例如一个发音经神经网络处理之后,可能得到一个正确的拼音,但还可能有其它的声调,或是相似的拼音,因此需要将这些发音的概率队列接入到语法词汇分析系统中,利用这一常规的处理办法,对发音的概率队列及其前后发音的概率队列进行语法和词法的组合筛选,最终选择出正确的输出。

经过语法词法分析之后的输出,虽然能满足大部分的识别,但是仍然有一些词组,它们的结构、词性、发音都相同,只是代表的意思不同(例如他们、它们、她们),这时就需要进入语义网系统中进行挑选。语义网的建立是将系统无法区分的词汇进行汇总,记录词与词之间的用途差异,并描述使用环境,使最终能获得一个正确的输出。

在语义网不够完善的情况下,仍然需要用户来进行纠错,但是传统的纠错方法是用键盘等外部设备输入正确的字词,纠错很不方便。本发明的语音词汇辨别系统支持利用语音纠错,其原理是系统保留有历史记录,当听到的字词发音为先前输出中的一个字词的重复发音时,自动检测后续发音是否为纠错内容,如果是纠错内容,则改正错的字词并对错处之后的发音重新进行词法、语法分析。例如“大家全部(全不)同意”的语音序列为:dà jiā       quán bù tóng yì,在语义网难以判断该语音的准确输出时,系统将根据频度或随机地给出一个输出结果,这时可以读入下边的拼音序列:dà jiā quán  bù tóng yì bù shì dē bù,或者读入下边的拼音序列:quán bù dē bù    shì bù shì dē bù,这样就能够得出一个完全正确的语句,使系统通过这种语音纠错方法达到100%的正确识别率,从而使仅仅通过语音识别就能解决输入问题的理想得以实现。

具体的语音纠错识别步骤如下:

1、在内存中建立输出循环映射队列,用于容纳有限的文字与发音。将前端程序确定的文字输出给用户交互界面,并且同时在映射队列中记录该文字及其发音。

2、当映射队列接收到一个由语音纠错系统确定的关键字词如“的”字的发音时,则启动语音纠错系统判断其之前紧跟的是否为一个词组,如果是则等待接收下一个发音是否是该词组中某个文字的发音。如果条件满足,根据改错特定语法,从词组向前搜索并定位该同发音的文字,用词组中的文字替换搜索到的同发音文字,同时删除纠错所用到的文字。3、如果条件不满足,结束语音纠错识别,继续进行语音识别。

  评论这张
 
阅读(362)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017