語音是我們?nèi)粘I钪凶钪匾穆曇粜盘?。它所傳遞的信息不僅可以用于人際交往,還可以用于識別個人的身份和情緒狀態(tài)。最相關(guān)的信息類型取決于特定的環(huán)境和暫時的行為目標(biāo)。因此,語音處理需要具有很強(qiáng)的自適應(yīng)能力和效率。這種效率和適應(yīng)性是通過早期聽覺感覺區(qū)域的自下而上的物理輸入處理和自上而下的聽覺和非聽覺(如額葉)區(qū)域驅(qū)動的自上而下的調(diào)節(jié)機(jī)制之間的積極相互作用實現(xiàn)的。因此,交互語音模型提出對輸入進(jìn)行初始自下向上的處理,激活聲音的多種可能的語言表示。同時,高水平的語音識別機(jī)制會對這些相互競爭的解釋產(chǎn)生抑制作用,最終導(dǎo)致正確解釋的激活。因此,自上而下的調(diào)節(jié)被認(rèn)為改變了自下而上的語音處理。然而我們尚不清楚這些自頂向下的調(diào)制是否以及以何種方式改變了聲音內(nèi)容的神經(jīng)表征(以下簡稱語音編碼)。這些變化發(fā)生在皮層處理通路的什么部位也不清楚。
因此,來自日內(nèi)瓦大學(xué)的研究在Nature Human Behaviour上發(fā)文討論了這一問題。在該研究中,作者使用基于模型的功能磁共振成像,在基本聲學(xué)特征(頻譜時變)的表示水平上,檢查聽覺皮層機(jī)制對語音編碼的情境依賴性。作者發(fā)現(xiàn)使用相同的語音執(zhí)行不同的任務(wù)會導(dǎo)致刺激中的大腦對任務(wù)績效相關(guān)的聲學(xué)特征的神經(jīng)處理的增強(qiáng),這種自上而下的增強(qiáng)機(jī)制在聽覺感知的早期階段就已能觀察到。
前言:
根據(jù)先前在動物和人類中的研究,學(xué)者們已經(jīng)提出皮質(zhì)的聲音編碼可以通過一組調(diào)制濾波器來表征。在耳蝸中的初始頻率分解之后,聲音在皮層下(丘腦)和皮層處理過程中就其聯(lián)合頻譜和時間調(diào)制內(nèi)容進(jìn)行分解。這種分解提供了聲音的多分辨率表示。有證據(jù)表明,語音信息是在人類顳上回(STG)的多維空間中編碼的。對動物的多項研究表明,主要聽覺區(qū)域的神經(jīng)處理的時間敏感性很靈活,可以動態(tài)適應(yīng)任務(wù)需求,任務(wù)難度或聯(lián)想學(xué)習(xí)。這些自上而下對早期聽覺處理的影響在人腦中發(fā)生的程度仍有待探索。在人類中,已經(jīng)發(fā)現(xiàn)了對語音神經(jīng)處理的自上而下的影響,但基本是在較高處理級別的區(qū)域中發(fā)現(xiàn)的,例如下頂葉或額葉皮層或位于后顳上回(postSTG)和顳上溝的(聽覺)關(guān)聯(lián)區(qū)域中。這些針對人類的研究表明,語音處理的神經(jīng)機(jī)制積極地適應(yīng)任務(wù)需求、注意力和先前的語義知識。
在先前的兩項研究中,研究者們發(fā)現(xiàn)自上而下的調(diào)制作用會依據(jù)被試在先前任務(wù)中的信息去調(diào)節(jié)聲音信息在顳葉內(nèi)編碼的特定方面。這些聲音編碼的動態(tài)變化主要發(fā)生在初級聽覺皮層的后顳上回、顳上溝區(qū)域或者初級聽覺皮層上方的額下回區(qū)域。
然而,語音處理的交互模型預(yù)測,自上而下的機(jī)制甚至影響早期聽覺詞匯前的處理水平,使早期處理能夠調(diào)整或放大與語音處理至關(guān)重要的聲學(xué)特征。根據(jù)此類模型,可以預(yù)期,任務(wù)需求調(diào)節(jié)已經(jīng)存在于早期聽覺皮層區(qū)域(即顳橫回(HG)和顳橫溝(HS))的語音編碼。然而,目前仍舊沒有一致的證據(jù)表明,在主要聽覺區(qū)域發(fā)現(xiàn)任務(wù)依賴導(dǎo)致的自上而下的調(diào)節(jié)所引起的激活。例如,對語音刺激執(zhí)行語義分類任務(wù)對HG的活動影響最小。相比之下,其他使用模式分類技術(shù)的研究表明,在早期聽覺區(qū)域中,語音喚起的反應(yīng)模式受任務(wù)需求、感知和學(xué)習(xí)的調(diào)節(jié)。然而,這些后續(xù)的研究都沒有將這些觀察結(jié)果與語音輸入的特定特征處理聯(lián)系起來。
基于模型的功能性磁共振成像(fMRI)分析的最新發(fā)展可以使我們現(xiàn)在能夠?qū)⒖臻g分布的神經(jīng)聲音表征與任務(wù)要求下的特定聲學(xué)特征聯(lián)系起來。
因此,在本研究中,作者使用基于模型的功能磁共振成像來探究語境是如何通過人類聽覺皮層調(diào)節(jié)語言編碼的。具體來說,作者研究了相同語音的神經(jīng)編碼是如何隨著語音中不同聲學(xué)特征的優(yōu)先處理而變化的。在高分辨率fMRI測量中,被試在相同的語音刺激(與法語音韻學(xué)相似但沒有意義的假話)背景下執(zhí)行語音識別(識別用于停止的輔音)或副語言信息識別(識別說話人)任務(wù)。然后,作者使用基于模型的解碼方法來檢測大腦在三個聲學(xué)維度上編碼的聲學(xué)能力:頻率、頻譜調(diào)制和時間調(diào)制。這些聲學(xué)維度對于描述語音信號中語言和副語言信息的特定方面具有不同的重要性。例如,對爆破輔音(如/p/、/t/和/k/)具有突然的頻譜寬度爆發(fā),而語音處理或說話人識別則更依賴于精細(xì)的頻譜細(xì)節(jié)和音高處理。
因此,為準(zhǔn)確執(zhí)行這些任務(wù),被試需要專注于在聲音中的不同類型的聲學(xué)信息。因此,作者希望通過這種方法將得到反映聽覺輸入動態(tài)編碼的具體過程。具體而言,基于先前對語音不同方面的神經(jīng)處理的發(fā)現(xiàn),作者假設(shè)辨別說話者的任務(wù)將導(dǎo)致較高頻譜調(diào)制的優(yōu)先編碼,而音素任務(wù)將導(dǎo)致較低頻譜調(diào)制和更快的時間調(diào)制的優(yōu)先編碼。此外,作者使用基于ROI的分析,研究了跨聽覺不同區(qū)域的神經(jīng)編碼的任務(wù)驅(qū)動調(diào)制,并評估了在早期聽覺區(qū)域是否會發(fā)生這種調(diào)制。
研究方法
被試:
十三名右利手、母語為法語的成年人(6名婦女;平均年齡(s.d.)= 23歲(4歲))參加了這項研究。自我報告聽覺正常和閱讀能力正常,沒有從事音樂家或與音樂相關(guān)的研究。研究的批準(zhǔn)是由瑞士沃州的州倫理委員會批準(zhǔn)的。所有被試在研究前均已簽署知情同意書,并為其參與獲得金錢補(bǔ)償。沒有使用統(tǒng)計方法來確定樣本量,但是我們的樣本量大于先前研究的報道。其他四名被試最初被包括在這項研究中,但后來被排除在外,因為兩個沒有完成完整的實驗,另外兩個在fMRI采集過程中表現(xiàn)出過度的頭部運動(也就是說本來參加實驗的人是17個)。
任務(wù)和刺激:
語音刺激包括120個假詞,這些假詞符合法語的語音標(biāo)準(zhǔn),但沒有意義。假詞是從預(yù)選的法語單詞列表中創(chuàng)建的,該單詞列表是使用Lexique心理語言工具箱從Lexique單詞數(shù)據(jù)庫(http://www.lexique.org)中檢索的,該工具包在遵循法語注音規(guī)則的情況下有選擇地對單詞中的字母進(jìn)行打亂。刺激的持續(xù)時間為1,000毫秒至1,200毫秒,采樣頻率為16 kHz。刺激的長度范圍為3至5個音節(jié),平均為4個音節(jié)。
被試執(zhí)行了一個說話人識別任務(wù)(三個目標(biāo)說話者)和一個音素識別(三個目標(biāo)停止輔音; / p /,/ t /和/ k /)任務(wù),例如,向被試展示了/gab?atad?/這個音節(jié),在說話人識別任務(wù)中,他們需要確定相應(yīng)的說話人(在此示例中為說話人2),而在音素識別任務(wù)中,他們指出了刺激中的目標(biāo)音位(在本示例中為/ t /)。所有目標(biāo)(特定說話者或特定音素)均等地分布在整個刺激中( n =每個目標(biāo)40),并且與任務(wù)無關(guān)的目標(biāo)在與任務(wù)相關(guān)的目標(biāo)之間保持平衡。
例如,說話者1說出了包含/ t / target的所有假詞中的13個,說話者2說出了14個假詞,說話者3說了13個(同理類推,作者一共有三個音素,三個說話人,這樣會形成每個人說包含這三個目標(biāo)音素的最終組合都是14、13、13)。
所有三個假詞只包含了三個目標(biāo)中的一個音素,并且這些目標(biāo)在每次刺激中發(fā)生一次或兩次(發(fā)生的可能性相等)。此外,有25%的單詞以目標(biāo)音素開頭。刺激由一位女性專業(yè)語音講師講出,并且為了創(chuàng)造出不同說話者的感覺,使用基于Audacity中實現(xiàn)的基于波形相似度(WSOLA)的重疊疊加技術(shù)來控制所記錄假詞的基本頻率(www.audacityteam.org)。由于時間延長和重采樣的結(jié)合,作者使用的音高移位算法最小地改變了信號的速度。
為了創(chuàng)建與說話者1相對應(yīng)的刺激,刺激的隨機(jī)子集(三分之一)的基本頻率相對于原始值下移了7.5%。為了產(chǎn)生對應(yīng)于說話者2的刺激,將另外三分之一的項目的基頻下移0.01%,并且為了產(chǎn)生對應(yīng)于說話者3的刺激,將其余項目的基頻上移至下一級。與原始刺激相比,說話者2的基本頻率變化聽不到。這些音調(diào)變化的刺激的自然性在先前的實驗中進(jìn)行了研究,通過使用不同的被試驗證了創(chuàng)建不同說話者的感知的成功程度。
功能磁共振成像測量
功能磁共振成像實驗包括兩個session,每個session間隔長達(dá)一周。在第一次實驗之前,被試熟悉了兩個識別任務(wù),以確保他們正確理解和執(zhí)行了任務(wù)。在這兩個fMRI實驗中,被試執(zhí)行了兩個識別任務(wù)。
被試通過雙手按下按鈕來報告他們的反應(yīng)。他們只需要對暗示試驗(試驗的13%)做出反應(yīng),這些刺激信號是通過刺激后呈現(xiàn)的視覺提示來表示的(暗示試驗不包括在腦成像數(shù)據(jù)分析中)。為了激發(fā)任務(wù)投入,如果被試在掃描過程中的任務(wù)績效達(dá)到或高于期望的績效水平(正確率為75%),則可以在兩次實驗結(jié)束時獲得額外的獎金。所有被試都實現(xiàn)了這一目標(biāo)。使用Sensimetrics(www.sens.com)的S14型fMRI兼容耳機(jī)以舒適的聆聽水平雙聲道呈現(xiàn)聲音,并調(diào)節(jié)聲音強(qiáng)度以使其與被試感知的響度相等。
刺激分為四個不重疊的組(每組n = 30),每個組包含不同目標(biāo)的平衡子集。 四組中的每組均在一個fMRI掃描中顯示,并在下一個掃描中重復(fù)。在一個環(huán)節(jié)中,被試根據(jù)特定刺激執(zhí)行說話者辨別任務(wù),然后在另一個掃描中執(zhí)行音素辨別任務(wù)。
每個刺激都出現(xiàn)了3次,并且刺激的順序是偽隨機(jī)的,因此在連續(xù)的試驗中沒有與任務(wù)相關(guān)的目標(biāo)被重復(fù),并且無關(guān)的目標(biāo)也沒有連續(xù)重復(fù)兩次。一次實驗總共包含八個run。每個run持續(xù)了大約8分鐘,包括60次試驗。被試要求被試在13%的試驗中做出回應(yīng),而在12%的試驗中,沒有聲音出現(xiàn)(無效試驗)以增加刺激間隔。
MRI參數(shù)
使用7T西門子設(shè)備、32通道RF頭陣列線圈進(jìn)行腦成像??焖偈录嚓P(guān)設(shè)計,35層重復(fù)時間(TR)= 2,600 ms;采集時間(TA)= 1,250 ms,回波時間(TE)= 20 ms,體素大小= 1.5×1.5×1.5 mm 3。作者采用了聽覺實驗中較為常見的長TR設(shè)計,在每個全腦掃描之間有1500的間隔,這個期間聽覺刺激出現(xiàn),這樣可以盡可能的避免核磁掃描帶來的噪聲影響。掃描過程中采取了jitter的方法來隨機(jī)間隔刺激,分別有兩個,三個或四個TR的隨機(jī)刺激間隔。最小的刺激間隔為5,100毫秒。
采集了T1結(jié)構(gòu)像用于配準(zhǔn),采集了feildmap圖用于場強(qiáng)校正。數(shù)據(jù)預(yù)處理使用BrainVoyager和BrainVoyager QX(Brain Innovation)分析功能和解剖像(T1)。Brain Voyager是一款商業(yè)的且成熟的核磁數(shù)據(jù)處理軟件,每個模態(tài)的都有,并且基于windows的界面化處理。
單變量組對比的fMRI分析
單變量分析基于在被試的皮質(zhì)表面(與基于voxel的分析不同,現(xiàn)在基于皮質(zhì)映射的方法可以將時間序列信息映射在對應(yīng)皮層的皮質(zhì)表面,進(jìn)行基于surface的分析,但是單變量分析的對象仍舊是時間序列)重建中重新采樣的功能時間序列。作者建立的GLM模型中確定了兩個contrast,分別是音素識別的條件和說話人識別的條件。
ROI的選取
作者手動標(biāo)記了以下六個聽覺ROI:HG(赫氏回),PT(顳平面),PP(顳極),antSTG(顳上回前部),midSTG(顳上回中部)和postSTG(顳上回后部),具體ROI的皮質(zhì)概率圖見圖3。作者在文中很具體的描述了不同ROI的解剖位置和選擇方法,感興趣的朋友可閱讀原文method部分。
文中的數(shù)據(jù)分析與結(jié)果部分基本重合,因此集中在結(jié)果部分一起解釋。
結(jié)果識別任務(wù)和行為表現(xiàn)
在fMRI掃描儀(7T)中,被試對相同的假詞執(zhí)行了音素和說話者識別任務(wù)(請參見“方法”中的“任務(wù)和刺激”部分)。在說話者識別任務(wù)中,要求被試辨別聽到的假詞是三個說話者中的哪一個說的,而在音素識別任務(wù)中,被試聽到了相同的假詞,但被要求指出他們是否包含/ p /,/ t /或/ k /聲音。假詞用于減少詞匯信息用于預(yù)測目標(biāo)聲音的存在并促進(jìn)音素任務(wù)期間對聽覺輸入的依賴。為了在被試執(zhí)行任務(wù)期間將聲學(xué)焦點特別導(dǎo)向頻譜信息,作者在本研究中未使用實際的人來說話。而是通過操縱一位女性說話者記錄的假詞的基本頻率來創(chuàng)建三種不同說話者,從而能夠以特定的頻譜信息來衡量聲學(xué)特征。被試對兩項任務(wù)的識別成功率均高于閾值(75%),說話人辨別任務(wù):平均值±標(biāo)準(zhǔn)誤差 = 88.8%±2%,音素任務(wù)的平均±均值標(biāo)準(zhǔn)誤差 = 96.5%±0.9%);然而,與不同的音素相比,被試在識別不同的說話人時更加困難(t 12 = ?4.193,P = 0.001(雙尾),差異(平均值±均值標(biāo)準(zhǔn)誤差)= ?7.7%±1.8%,95%置信區(qū)間(CI)= -11.7%至-3.71%)。在每個任務(wù)中,對不同的刺激對象的反應(yīng)沒有顯著差異(對不同音素或者不同說話人)。
基于刺激構(gòu)建的音素和說話人的調(diào)制模型
這項研究的目的是檢驗當(dāng)不同的任務(wù)在相同的語音播放中執(zhí)行時,相同的語音是否在聽覺皮層中以不同的方式編碼。因此,作者需要確定材料中的聲音其本身的哪些聲學(xué)方面對執(zhí)行各自的任務(wù)最有幫助。為了做到這一點,作者使用了一個模擬皮層聲音表征的模型來模擬作者設(shè)計的聲音刺激。這個模型由三個維度組成,包括聲音特征的頻率(圖1中的單位f,)、頻譜調(diào)制(spectral modulation圖1中的單位Ω)以及時間調(diào)制(temporal modulation,圖1中的單位ω)。通過這個三個維度,可以唯一的表示每個說話人或者每個具體音素,如圖1中的圖所示,其中a里面上面標(biāo)著speaker的是三個模擬的說話人的模型表征,其中前三個圖是在通過信號變換后,在頻閾上的波譜特征的變化,后三個是在通過短時傅里葉變換后的在頻域上的時間信息的變化。在下面的6張圖中表示了三個音素的對應(yīng)的頻域上的波譜特征的變化和時間信息的變化。b圖中展示了標(biāo)準(zhǔn)化后的聲學(xué)特征在頻譜調(diào)制和時間調(diào)制上所展現(xiàn)出來的不同的分辨能力。從b圖的第一張圖中可以看出,在中心頻率為0.8 kHz和2.9 kHz以上的高頻譜調(diào)制)下,不同說話者的調(diào)制曲線的聲學(xué)變化最為顯著。從b圖的第二張圖可以看出:不同音素的聲學(xué)特征主要表現(xiàn)在以快速的時間調(diào)制速率(>7.8Hz上下)和較寬的頻譜調(diào)制頻率(中心頻率范圍較寬)下的聲學(xué)變化,主要表現(xiàn)在0.6 kHz以上的頻率上。從以上的分析可以看出,說話人的聲學(xué)特征變化集中在頻譜調(diào)制維度,而音素的聲學(xué)特征變化集中在較廣頻率范圍的時間調(diào)制維度上。因此,作者預(yù)期在具體的任務(wù)中對神經(jīng)解碼的分析應(yīng)該與其聲學(xué)特征的表征是一致的。
圖1 三個說話人和三個音素在三個不同維度上的組合表征,a為未標(biāo)準(zhǔn)化的數(shù)據(jù),b為標(biāo)準(zhǔn)化后的數(shù)據(jù)
聽覺皮層對說話者任務(wù)和音素辨別任務(wù)的激活響應(yīng)
聽覺語音在雙側(cè)顳上皮層廣泛區(qū)域引起顯著的BOLD反應(yīng),包括HG、HS、顳平面(PT)、顳極(PP)、STG和顳上溝(STS);圖2)。雖然作者的本次研究并不關(guān)注單變量分析中兩種任務(wù)的激活差異,但是全腦單變量分析的結(jié)果仍舊發(fā)現(xiàn),說話者辨別任務(wù)相比于音素辨別任務(wù)在右側(cè)顳極出現(xiàn)了更強(qiáng)的激活。但是音素辨別任務(wù)并未在任何一個腦區(qū)表現(xiàn)出比說話者辨別任務(wù)更強(qiáng)的激活。這說明,只用簡單的單變量分析雖然也能看到一點兒由于任務(wù)不同所帶來的對相同聲音刺激表現(xiàn)出的腦區(qū)激活的不同,但是這種對比顯然不能提供更多的信息。
圖2 語音任務(wù)引起的激活(這里并未對比兩項任務(wù)的激活差異)
感興趣聽覺區(qū)域中語音的神經(jīng)編碼
通過對以往研究的分析和作者的語音激活的結(jié)果,作者確定了6個ROI,并且映射于每個被試的皮質(zhì)表面重建中,分別是:HG,PT,PP,前顳上回(antSTG),中顳上回(midSTG)和后顳上回(圖3;請參閱“方法”部分中的“解剖ROI的描述”部分劃定標(biāo)準(zhǔn))。在這里,作者使用每個ROI和每個半球,分別訓(xùn)練一個線性解碼器,根據(jù)聲音表示模型的定義,重構(gòu)每個聲音的聲學(xué)特征。對聲音表征模型的所有特征的組重建精度是通過一個特定于任務(wù)的調(diào)制傳遞函數(shù)(MTF)來完成的。在這里,我們來了解下什么是MTF,MTF全稱為modulation transfer function,翻譯為調(diào)制傳遞函數(shù)。該函數(shù)是描繪不同空間頻率下成像系統(tǒng)細(xì)節(jié)分辨力的函數(shù),其主要考查影像中信號的調(diào)制度相比于物體(對應(yīng)于理想成像系統(tǒng))中信號的調(diào)制度的降低程度。1962年國際放射界“模仿”了通訊工程學(xué)信息論的“頻率調(diào)制”概念,將其以時間頻率為自變量的頻率響應(yīng)函數(shù),換成以空間頻率(lp/mm)為變量的調(diào)制傳遞函數(shù)。所謂調(diào)制傳遞函數(shù)(MTF)即“響應(yīng)函數(shù)”,可以簡單理解為記錄(輸出)信息量與有效(輸入)信息量之比。在這里,通過對fMRI這12個ROI的時間序列的信息來衡量如何表征作者在上一步分析中通過頻率、頻譜調(diào)制和時間調(diào)制表征的不同的聲學(xué)特征。作者這里利用的線性解碼器其實是使用機(jī)器學(xué)習(xí)的方法來重建一個MTF函數(shù),用這個函數(shù)來表征這些ROI是如何特定的表征一個作者之前所建立的由三個特征所表征的不同的聲音的(三個不同說話人和三個不同音素)。作者對表示每個不同聲學(xué)特征的ROI的MTF進(jìn)行了統(tǒng)計校正,然后獲得每個MTF的重建精度的平均值作為后續(xù)統(tǒng)計檢驗的指標(biāo)。在這兩項任務(wù)中,作者指出所有刺激的聲音特征可以被準(zhǔn)確地重建為由兩個維度所表征的數(shù)據(jù)——頻譜調(diào)制和時間調(diào)制維度(圖4)。然而,在速度更快的時間調(diào)制(>10Hz上下)和中心頻率在0.5 kHz到1.7kHz之間的重構(gòu)通常精度更高。結(jié)果表明,六個ROI中有五個ROI的MTF中的任務(wù)有所不同。在說話者辨別任務(wù)期間,在以下ROI的MTF中,特定說話人聲音特征的重建精度更高:雙側(cè)HG,PP和postSTG,右PT和左中顳上回。在音素任務(wù)中,發(fā)現(xiàn)雙側(cè)后STG和右中STG的MTF內(nèi)的重建精度更高。
圖3 ROIs概率圖
注釋:ROI概率圖,每個ROI用顏色編碼,顯示了覆蓋在LH和RH膨脹的曲面重建上的被試之間手動標(biāo)記的ROI。特定于ROI的色標(biāo)指示所有被試中各個ROI的重疊百分比(n = 13)。
圖4 說話人和音素任務(wù)期間MTF函數(shù)重建的聲音表征
注釋: a,b,顯示了針對每個ROI在說話者(a)和音素任務(wù)(b)期間聲音特征的重建精度的二維調(diào)制曲線。顏色代碼表示預(yù)測的聲能與聲音特征的實際能之間的組平均值r。
a,在說話者辨別任務(wù)期間,發(fā)現(xiàn)峰值重構(gòu)精度在0.5 kHz至1.7 kHz之間實現(xiàn)更快的時間調(diào)制(上下> 10> Hz)和更高的頻譜調(diào)制(每倍頻程4個周期)。
b,在音素任務(wù)期間,發(fā)現(xiàn)中心頻率在0.4 kHz和1.0 kHz之間的快速時間調(diào)制(上下> 10> Hz)具有峰值重建精度。所有相關(guān)性均經(jīng)過統(tǒng)計學(xué)驗證。
進(jìn)一步的分析結(jié)果表明,對于每倍頻程1.1個周期以上的頻譜調(diào)制,說話者任務(wù)期間的重建精度明顯高于音素任務(wù)(Ω= 1.7:t 12 = 3.548,P = 0.004;Ω= 2.6:t 12 = 4.225,P = 0.001;Ω= 4.0:t 12 = 5.092,P <0.001;所有測試均經(jīng)過Bonferroni校正后的測試數(shù)量;圖6)。相比之下,在最低音譜范圍內(nèi),音素任務(wù)期間的重建精度顯著高于說話者任務(wù)期間的重建精度(Ω= 0.5:t 12 = -6.387,P <0.001;圖6)。時間調(diào)制的結(jié)果表明,兩個任務(wù)之間的精度在時間調(diào)制重建速率較高的情況下重疊,而在時間調(diào)制重建速率較慢的情況下,說話人任務(wù)的準(zhǔn)確度明顯高于音素任務(wù)(ω= 1.0:t 12 = 4.932 ,P <0.001;ω= 1.2:t 12 = 4.960,P <0.001;ω= 2.8:t 12 = 5.361,P <0.001。ω= 3.4:t 12 = 4.725,P <0.001;圖6)。這些差異表明,與更廣泛的語音編碼相比,快速時間調(diào)制的編碼更特定于音素任務(wù)。最后,作者檢查了在任務(wù)中觀察到的聲音的神經(jīng)編碼中的差異是否顯示出與任務(wù)性能相關(guān)的聲音特征的放大。使用多種聲音功能分析目標(biāo)可分離性。對于每個任務(wù),對所有正重構(gòu)的聲音特征進(jìn)行分類,并分別對兩個半球進(jìn)行分類。結(jié)果發(fā)現(xiàn)了目標(biāo)類別和任務(wù)之間的交互效應(yīng)(F 1,12 = 17.714; P = 0.001),以及目標(biāo)類別,任務(wù)和ROI之間的三交互效應(yīng)(F 5,8 = 6.516; P = 0.011)。當(dāng)分別測試每個ROI時,僅在前顳上回中發(fā)現(xiàn)了該任務(wù)的主效應(yīng),并且相比音素任務(wù),對說話人判別任務(wù)具有更高的分類準(zhǔn)確性(F 1,12 = 5.869,P = 0.032;圖7b)。沒有在其他任何ROI中發(fā)現(xiàn)任務(wù)的這種影響(HG:F 1,12 = 0.690,P = 0.422; PT:F 1,12 = 0.915,P = 0.358; PP:F 1,12 = 0.015,P = 0.904; 中顳上回:F 1,12 = 0.116,P = 0.739;后顳上回:F 1,12 = 2.162,P = 0.167;圖7b).此外,作者還發(fā)現(xiàn)目標(biāo)類別與以下ROI中MTF的識別精度相關(guān):HG,PT,中顳上回和后顳上回(HG:F 1,12 = 26.078,P <0.001; PT:F 1,12 = 7.638,P = 0.017; 中顳上回:F 1,12 = 5.077,P = 0.044;后顳上回:F 1,12 = 15.161,P = 0.002)。在以上這些ROI中,從fMRI信號中重建的聲音特征對說話人任務(wù)分類的準(zhǔn)確度高于音素任務(wù)。在音素分類中發(fā)現(xiàn)了相反的情況(圖6c)。這些結(jié)果表明,聲音的聲學(xué)表示隨任務(wù)要求而變化。
圖5 通過MTF重建的不同ROI的聲學(xué)特征的表征模型的統(tǒng)計結(jié)果
注釋:a,顯示出任務(wù)調(diào)節(jié)效果的ROIs被疊加在LH和RH膨脹的組表面重建上。
圖6 通過MTF重建的聲學(xué)特征模型在頻譜調(diào)制和時間調(diào)制上表現(xiàn)出的任務(wù)分離能力注釋:a,b,說話人辨別任務(wù)(藍(lán)色)和音素辨別任務(wù)(紅色)在頻譜調(diào)制(a)和時間調(diào)制上的變化。陰影區(qū)域代表SE。從圖中可以,說話者任務(wù)期間,每倍頻程1.7、2.6和4個周期的頻譜調(diào)制的重構(gòu)精度顯著高于音素任務(wù),而在音位辨別任務(wù)中,每倍頻程0.5個周期的頻譜調(diào)制的重構(gòu)精度較高。b的時間調(diào)制模型表明,在音素辨別任務(wù)中,重建精度在較高的時間調(diào)制速率下(非顯著)最高,而在說話者任務(wù)期間的重建精度在1.0 Hz,1.2 Hz的較慢和中等調(diào)制速率下較高,2.8 Hz和3.4 Hz。
圖7 通過MTF函數(shù)得到的重建精度在不同ROI對不同任務(wù)的預(yù)測能力
總結(jié):
總之作者的數(shù)據(jù)闡明了聽覺處理過程中自上而下的預(yù)測能力對聽覺皮質(zhì)語音感知調(diào)節(jié)的神經(jīng)計算機(jī)制,提供了人腦如何在聽覺環(huán)境中動態(tài)的處理語音信息的新的見解。作者發(fā)現(xiàn),在相同的語音環(huán)境中,不同任務(wù)的表現(xiàn)會導(dǎo)致與任務(wù)表現(xiàn)密切相關(guān)的聽覺特征的神經(jīng)增強(qiáng)。這些任務(wù)效應(yīng)在聽覺皮層處理的早期階段就已經(jīng)出現(xiàn),這說明自上而下的控制機(jī)制對聽覺感官靈活地處理語音信息是至關(guān)重要的。該研究結(jié)果為人類大腦中聽覺編碼的靈活性提供了有意義的見解。
原文:Cortical encoding of speech enhances task-relevant acoustic information
微信掃碼或者長按選擇識別關(guān)注思影
第六屆任務(wù)態(tài)fMRI專題班(重慶4.8-13)
第二十八屆磁共振腦影像基礎(chǔ)班(重慶2.24-29)
第十四屆磁共振腦網(wǎng)絡(luò)數(shù)據(jù)處理班(重慶3.18-23)
第二十屆腦電數(shù)據(jù)處理中級班(重慶3.7-12)
第二十九屆磁共振腦影像基礎(chǔ)班(南京3.15-20)第八屆腦電數(shù)據(jù)處理入門班(南京3.9-14)
第七屆近紅外腦功能數(shù)據(jù)處理班(上海4.2-7)
思影數(shù)據(jù)處理業(yè)務(wù)一:功能磁共振(fMRI)
思影數(shù)據(jù)處理業(yè)務(wù)二:結(jié)構(gòu)磁共振成像(sMRI)與DTI