中华耳鼻咽喉科杂志 1999年第2期第34卷 耳科学
多通道人工耳蜗使用者电刺激速率辨别与声调识别的关系
魏朝刚 曹克利 王直中 曾凡钢
魏朝刚、曹克利、王直中 北京
中国医学科学院中国协和医科大学北京协和医院耳鼻咽喉科100730;曾凡钢 美国洛杉矶豪斯耳研所
关键词: 耳蜗植入物;语音学;音调辨别;电刺激
【摘要】 目的 用心理物理学的方法探讨多通道人工耳蜗使用者单个电极速率识别与声调及言语识别的关系,为国人使用多通道人工耳蜗效果的评估及汉语语音编码方案的设计提供依据。 方法 4例语后聋成人人工耳蜗使用者参与测试。以4个标准频率50、100、200和400 Hz为基线,对4个电极对(E1,E3),(E7,E9),(E14,E16)和(E20,E22)分别用不同频率与4个基线间进行刺激率辨别测试。用25组4个声调共计100汉字进行声调识别测试。计算正确识别率,分析正确和错误识别的混淆矩阵,对测试材料进行基频分析。结果 速率辨别阈(75.0%正确率时)个体差异很大,从数Hz到上百Hz。统计学分析显示标准频率、电极位置和患者间差异具有显著性。声调识别正确率为40%~80%,阴平和上声较阳平和去声容易识别。相关分析显示在速率辨别与声调识别间表现出高度相关性。结论 人工耳蜗使用者的声调识别依赖于其良好的电极速率辨别。
Rate discrimination and tone recognition in mandarin-speaking cochlear-implant listeners
WEI Chaogang, CAO Keli ,WANG Zhizhong ,et al. Department of Otorhinoloaryngology, Peking Union Medical College Hospital, Chinese Academy of Medical Sciences,Beijing 100730
【Abstract】 Objective
To explore the relationship between the rate discrimination and the tone recognition with psychophysical method, and provide a basis for evaluating the results from mandarin-speaking cochlear implantees who used multi-channel cochlear implant and designing new speech coding strategies of the speech processor. Methods Four postlingually-deafened adults with cochlear implant participated in this study. We used the method of constant stimuli to measure the rate discrimination as a function of the standard rate at 50, 100, 200, 400 Hz on electrode pairs (E1,E3), (E7,E9), (E14,E16), and (E20,E22), respectively. We also measured tone recognition in 25 consonant-vowel syllables, each of which has four tonal variations, resulting in a total of 100 words. These words were recorded by a male talker and were presented five times each to the implant users via their speech processors. The tone recognition results were scored in overall percent correct and analyzed by error patterns in the confusion matrix and fundamental frequency. Results The rate discrimination thresholds, defined at the 75% correct level, varied greatly among individuals and ranged from several Hz to hundreds of Hz. A three-way ANOVA indicated significant effect (P<0.05) on rate discrimination for the standard rate, electrode position, and patient variable. The tone recognition ranged from 40% to 80% and tones 1 and 3 were more easily identified than tones 2 and 4. Preliminary analysis using linear regression revealed highly significant correlation between rate discrimination and tone recognition. Conclusion These results suggest that identification of tones relies on good rate discrimination in cochlear implant listeners. Clinical rehabilitation strategies in improving rate discrimination were discussed.近年来随着多通道人工耳蜗语音处理技术的发展,植入患者的言语识别能力得到很大提高。虽然语音处理方案各异,但基本原理都是利用了电听觉的部位编码机制和周期编码机制。
材料及方法
一、
受试者
4例语后聋成人志愿参加本次测试,为在我院接受人工耳蜗植入手术的患者。4例中男2例,女2例;年龄34~59岁;学历大学2例,初中2例。耳聋开始年龄6~24岁;人工耳蜗植入时年龄31~56岁;致聋原因2例为药物中毒性聋,2例原因不明。使用人工耳蜗装置均为Cochlear公司生产,体内装置为CI22M
22通道系统,体外言语处理器3例为MSP,1例为Spectra
22。处理方案例1、2、4为Mpeak,例3为Speak,使用时间2~30个月,其中例3先使用MSP装置的Mpeak言语处理方案20个月,后10个月改用Spectra
22 装置的Speak言语处理方案。例4因其它原因,植入装置9个月,但实际使用仅2个月。
二、
电刺激参数
将受试者的体外言语处理器通过计算机接口设备与计算机相连,Cochlear公司调试软件提供所需的电刺激参数。选用脉冲频率50、100、200和400
Hz 4个电脉冲作为测试基线频率。以不同的电脉冲分别与基线频率组成电刺激对,如100与106、100与112、100与124
Hz等。每对电刺激中基线频率的先后位置随机出现。电刺激的电流强度为最大舒适响度的80%,以保证受试者感受音量适中而且舒适。选用电极对(E1、E3),(E7、E9),(E14、E16)和(E20、E22)作为测试电极,E1为蜗底电极,E22为蜗顶电极。电极模式为间隔电极刺激,即E1与E3电极组成电极对,E1为刺激电极,E3为参考电极,依次类推。
三、
言语测试材料
1.声调识别测试材料为自编的测试字表,选用汉语38个韵母中的25个韵母编制成25组4声调测试用字表。每组由声韵母相同、声调不同的4个汉字组成,25组共计100个测试汉字。未收录的韵母主要包括:①与声母组成的音节去声不全;②3个(-i,er,ê)使用率很低的特殊韵母;③部分辨认难度较大的后鼻韵母。测试时每轮选读每组中的1个汉字,100个测试汉字的声调顺序随机出现。每组4声调中仅有1个正确答案,答案选择的机会水平为25%。语音材料由男声普通话发音,其嗓音平均基频为140
Hz,记录在磁带上。
2.言语测试材料选用张华等[2]编制的汉语最低听觉功能测试表(minimal
auditory capabilities in
Chinese,MACC)。该表包括封闭项列和开放项列共17项,封闭项列测试内容为韵母、声母、数词(两位数字),机会选择水平为25%。开放项列由44个单字词,40个双字词,20句安静中短句(94个关键字),10句噪声中短句(44个关键字)和14种环境声音组成。
四、测试程序:
1.频率辨别阈测试:通过软件设定的电脉冲分别刺激前述选定的电极对,以设定的4个电脉冲频率为基准频率,用相近的频率与之配对,让受试者进行频率辨别。频率辨别的机会水平为50%。每个基准频率所完成的测试频率对应不少于5对,每对测试频率重复50次,计算正确辨别率。须获得50%和100%附近及中间段的正确辨别率的数值。最后计算当正确辨别率为75%时,各基准频率的辨别阈值和函数斜率。
2.言语测试:在安静的实验室内进行,用录音机播放磁带,扬声器放音。扬声器与受试者耳后话筒相距为1
m。音量调至舒适响度,以受试者自述清晰无失真为准。言语材料播放2次,间隔3
s,保证受试者有足够回答时间。声调识别和MACC测试重复5次,取平均值为该受试者的识别结果。声调和MACC封闭项列的识别结果与标准答案完全一致时记为正确识别,开放项列则由受试者复述所听内容,单字词和双字词以准确复述记为正确,短句则以句中关键词为记分依据,也以准确复述记为正确识别。
每个受试者分数天完成全部测试内容,每次测试不超过3
h,中间辅以休息。受试者言语处理器上的各项参数保持原来所用不变。测试前给予指导和练习,至理解和熟悉方法后方进行正式测试。测试中不给受试者提供结果反馈。
五、
结果分析
测试结果用t检验和直线相关等统计学方法进行检验和分析。录制的声调材料使用北京邮电大学研制的VOICE软件进行基频和时长分析。我们选用最初F0、最未F0两者间最大F0和/或最小F0等数值,据此计算每个声调的平均基频跨度和时长。F0变化跨度是指最初F0与最未F0代数差的绝对值。但上声的F0跨度,是用最初F0及最未F0与最小F0间差的绝对值再平均来表示。时长是指最初F0与最未F0间的时程。
结果
±s,下同)分别是(27.1±13.0)
Hz,(55.8±43.2)Hz,(85.3±61.3)和(173.7±114.0)Hz,经统计学检验(t检验),除100 Hz和200
Hz间差异无显著性外,其余各基线的Δf间差异有显著性(P<0.01)。4例不同速率及电极位置平均Δf,例1为(90.0±74.3)Hz,例2为(53.3±61.5)Hz,例3为(34.1±24.6)Hz,例4为(132.8±111.0)Hz,t检验显示例4与另3名受试者间差异均有显著性(P<0.01),而其他受试者间差异无显著性。不同电极位置速率辨别时,各电极的均值和标准差E1为(71.4±94.0)Hz,E7为(38.7±54.4)Hz,E14为(88.7±104.7)Hz,E20为(116.5±98.6)Hz,t检验显示各电极对间差异无显著性。基于以上分析,我们认为,在400
Hz脉冲率内,脉冲率越高,辨别频率差异时所需的频率差别也越大,耳蜗中不同电极部位的Δf变化各人表现不一,未见明显规律。表1 受试者MACC测试正确识别率(单位:%)
| 患者 | 封闭项列 | 开放项列 | |||||
| 元音 | 辅音 | 数字 | 单字词 | 双字词 | 短句
(安静) |
环境声 | |
| 例1 | 69.4 | 76.2 |
96.0 |
40.9 |
36.7 |
61.0 |
54.8 |
| 例2 | 88.9 | 90.2 | 100.0 | 79.6 | 95.9 | 97.3 | 80.9 |
| 例3 | 59.0 | 85.7 | 97.3 | 41.1 | 31.2 | 37.5 | 69.0 |
| 例4 | 46.5 | 50.0 | 80.0 | 8.1 | 2.5 | 3.2 | 14.0 |
从表中可以看出,各受试者封闭项列的测试结果较接近,例2的结果略好于其他受试者,而例4为最差者。在本组受试者中特别表现出对数词识别的很高分辨能力,正确识别率为80%~100%(平均值为93%)。而开放项列的测试结果受试者间差别较大,从例2的完全识别到例4的几乎不能识别。
3.声调测试:声调测试的结果见图1。平均正确识别率例1为67.4%,例2为70.2%,例3为71.4%,例4为51.0%。除应用效果较差的例4外,其余3例受试者的结果较接近。从本组结果来看,即使是最优使用者例2其声调识别率也难达到很高,这可能是封闭项列测试结果上界局限的原因。对4例受试者的声调正确率。识别率与电刺激率辨别能力进行相关分析,50、100、200和400
Hz的相关系数分别为0.9143、0.9695、0.8779和0.6934。

图1 受试者4声调正确识别率
4例受试者对声调识别刺激和反应的特点是:1~4个声调的平均正确识别率分别为75.3%、50.3%、61.3%和75.2%。去声和阴平的识别要较阳平和上声为好,最差的是阳平。说明去声和阴平容易辨别。对刺激作出错误反应的构成比中,阴平占35.8%,阳平占30.9%,上声占20.7%,去声占10.9%,未判断占1.6%。刺激为阴平时,错误反应主要表现为阳平和上声;刺激为阳平时,错误反应表现为阴平和上声为多;刺激为上声时,错误反应为阳平较多;刺激为去声时,错误反应以阴平较多。误判为去声的最少,这与去声识别率最高相对应;误判为阴平最多,阳平和上声间容易混淆,4例受试者的结果基本都符合这个规律。
4.基频分析:应用专用软件(VOICE)对声调测试的100个汉字进行了F0和时长分析,根据前述方法,阴平、阳平、上声和去声的F0变化跨度的均值和标准差分别是:(39.5±35.0)Hz,(64.8±41.1)Hz,(80.1±38.9)Hz和(85.1±55.1)Hz。时长的均值和标准差分别是:(0.63±0.22)s,(0.68±0.07)s,(0.72±0.10)s和(0.48±0.08)s。
讨论
Dorman等[3]对人工耳蜗使用者的频率辨别与言语识别间关系进行测试,发现如果受试者感知频率变化的频率范围较广(100
Hz~3 kHz)时,言语识别率高,感知频率范围较窄(100Hz~1.0
kHz以内)时则言语识别率低。因此推断受试者对频率变化的辨别能力与言语识别有关。Dorman等[4]用125~3
900 Hz的纯音对人工耳蜗使用者进行测试,结果表明多数受试者在第1共振峰(formant 1,
F1)频率范围内的有较好的频率辨别力,言语识别好的受试者对F1频率范围内的频率辨别阈约为200 Hz;第2共振峰(formant 2,
F2)范围内的频率辩别阈为300
Hz。对这些受试者的频率辨别与言语识别(CID-A短句,杨杨格词,NU-6词,辅音和元音)间的相关分析均表现差异有显著性(P<0.001)。说明人工耳蜗植入者对特定声音频段的分辨能力与言语识别水平有关。
声刺激诱发的听觉感知与电刺激诱发的听觉感知是通过不同机理而产生作用的。电刺激诱发的音调和音色感知是耳蜗植入者在理解语言和其它声音信号的最重要所在[5]。但这种电听觉感知与正常耳蜗对频率的初级分析原理并不相同,如用100
Hz脉冲电信号刺激基底膜的某一高频频段时(如2 kHz),此时电听觉的音调感知是1个高频音调,但不一定是2
kHz。众所周知,耳蜗对声音频率的分析是由螺旋神经纤维放电的时间方式和兴奋的空间方式所决定,在电刺激时,刺激时间的构成是由电刺激频率或脉冲率决定,空间的构成是由植入耳蜗内电极的几何构型和部位决定。Blamey等[5]推测脉冲率与音调识别有关,而电极位置与音色识别有关。Bilger[6]用电刺激耳蜗与声刺激所诱发的音调进行了匹配研究,发现低于160
Hz的电脉冲刺激可与正弦波的声刺激所产生的音调感知相匹配。Eddington等在局部麻醉下用200
Hz电信号刺激志愿者,电刺激耳蜗深度25 mm和19 mm处时能分别产生同1.5和2
kHz相匹配的音调感受。这些研究显示当电脉冲率增加和/或电极位置自蜗顶向蜗底移动时,获得音调上升的感受,但当电脉冲率超过300
Hz以后该作用减弱或消失。
汉语声调的变化主要是基频的变化,通过基频就能识别声调90%以上[1]。本组4例受试者的声调识别中存有差距,识别率最低的是例4,而另3例间差距较小。例4与最高识别率间相差20%。统计学分析结果显示,例4同其他3例受试者之间差异有显著性,而其他3例之间差异无显著性,提示不同部位的电刺激脉冲率的辨别力可能与声调识别有关。
对电刺激率辨别能力与声调识别进一步研究时发现两者间呈负相关,即电刺激率辨差越大,声调识别率越低。但4条电刺激基线相关系数并不一致,与100
Hz的相关性最密切,其次是50 Hz,最次是400 Hz。同时本组最优者例2在电刺激频率辨别测试中,表现100
Hz基线的频差最小,开放言语识别能力非常良好,这也进一步说明对100
Hz左右电刺激的良好辨别能力决定了言语识别水平。这种相关性反应了电刺激率变化的辨别能力决定了声调识别水平,并且主要是受特定范围的脉冲率所影响,这与声音刺激的音调辨别与特定范围的频率相关是相似的。
Cochlear公司的Mpeak语言处理方案,主要特点是提取基频(F0)、第1共振峰(F1)和第2共振峰(F2)频率,在对言语进行编码时基频决定着电脉冲率,共振峰频率决定刺激耳蜗神经的电极部位。在元音或浊辅音音节时,电刺激率等于基频(F0)。因此当受试者对电脉冲率具有良好识别能力时,就间接表明其对基频的良好识别。汉语声调主要是由基频所决定的,我们用于声调测试材料是由男性发声,其平均基频在140
Hz左右,当受试者对100
Hz左右电脉冲率辨别良好时,说明他能比较好的辨别基频的频率变化,从而能较好的识别声调。这就可以解释为什么声调识别与100
Hz左右的电脉冲辨别相关性最密切,而与400
Hz相关性差。
4例受试者中去声和阴平识别好,阳平和上声差。去声的基频变化最大,平均跨度为85 Hz,时程也最短仅0.48
s,因此去声单位时间基频变化速率最大。所以受试者对去声的识别较其它声调容易,其正确识别率明显高于阳平和上声。而阴平的基频最小,其识别可能并不是对F0变化作精细判别而获得的,因此判断其有无变化要较判断变化程度难度为小,所以阴平调的识别率也高于阳平和上声。再者当受试者未能辨别出其它声调的F0变化时,误认为F0无变化而将其判断为阴平,所以本组受试者的阴平正确识别率高,同时错误反应为阴平比例最高也支持这一观点。阳平的F0变化跨度仅次于阴平,由于变化小,受试者辨别的难度也就最大,所以阳平的正确识别率为本组最低。同时它的时长与阴平的时长相接近,这样就不难理解为什么刺激是阳平时,误判为阴平的比例最高。
本研究测试对象使用Cochlaer公司Mpeak和Speak语言处理方案的人工耳蜗装置,其处理方案所用的电刺激率在400
Hz以下。采用这种低电刺激率是依据经典神经电生理理论,耳蜗神经仅能对数百Hz低频电刺激提供时间编码。但这种理论存在争议。Hochmair等在单通道人工耳蜗患者中发现,去除900
Hz以上成分,语言识别率下降,加入高频成分后,患者对电刺激的识别能力提高。近年使用的连续间隔采样言语处理方案发现,单个电极的电刺激率超过1
000
Hz,使用该处理方案的人工耳蜗患者也获得很好的语言识别,有人认为对单电极的高速率刺激可较多的保留时间信息。从使用人工耳蜗的临床效果看,基于部位编码的言语特征提取方案和基于速率编码的连续间隔采样言语处理方案都获得较高的言语识别率。因此听觉系统对电刺激的时间编码机制目前并不十分清楚,进一步的研究不仅将围绕着低频电刺激机制,而且还要对高频电刺激机制来进行。
参考文献
1 梁之安.汉语普通话中声调的听觉辨认依据.生理学报,1962,26:85-87.
2 张华,曹克利,王直中.
汉语最低听觉功能测试的设计与初步应用.中华耳鼻咽喉科杂志, 1990,25:79-81.
3 Dorman MF,Smith
L,McCandless G,et al.Pitch scaling and speech understanding by
patients who use the ineraid cochlear implant.Ear
Hear,1990,11:310-315.
4 Dorman MF,Smith LM, Smith M,et
al.Frequency discrimination and speech recognition by patients who
use the Ineraid and continuous interleaved sampling cochlear-implant
signal processors.J Acoust Soc Am,1996,99:1174-1184.
5 Blamey
PJ,Dooley GJ,Parisi ES.Pitch comparisons of acoustically and
electrically evoked auditory sensations. Hear
Res,1996,99:139-150.
6 Bilger RC. Psychoacoustic evaluation of
current prostheses. Ann Otol Rhinol Laryngol,86(Suppl 38):
92-97.
(收稿:1998-09-15 修回:1999-01-19)