研究亮點(diǎn)
l 感知運(yùn)動(dòng)皮層加工發(fā)音運(yùn)動(dòng)軌跡(articulatory kinematic trajectories, AKTs)
l AKTs揭示了舌頭、嘴唇、下巴和喉部的協(xié)調(diào)運(yùn)動(dòng)
l AKTs表現(xiàn)為聲道發(fā)音器官的刻板軌跡
l AKT表征由于發(fā)音器官運(yùn)動(dòng)導(dǎo)致的上下文相關(guān)運(yùn)動(dòng)的編碼
流利的語言表達(dá)需要精確的聲道運(yùn)動(dòng)。Chartier等人研究聲道運(yùn)動(dòng)在感覺運(yùn)動(dòng)皮層上的編碼。該研究發(fā)現(xiàn),單電極神經(jīng)活動(dòng)可以編碼不同的運(yùn)動(dòng)軌跡,這些運(yùn)動(dòng)軌跡是產(chǎn)生自然語言的復(fù)雜運(yùn)動(dòng)軌跡基礎(chǔ)。本文發(fā)表在Neuro雜志。
文獻(xiàn)導(dǎo)讀
人們?cè)谡f話時(shí),會(huì)動(dòng)態(tài)協(xié)調(diào)下巴、舌頭、嘴唇和喉部運(yùn)動(dòng)。為了研究發(fā)音的神經(jīng)機(jī)制,研究者在參與者使用包含全部英語語音進(jìn)行自然語言表達(dá)時(shí),直接記錄感覺運(yùn)動(dòng)皮層的神經(jīng)信號(hào)。研究者們使用深層神經(jīng)網(wǎng)絡(luò)從產(chǎn)生的語音聲學(xué)信號(hào)中推斷出說話者的發(fā)音運(yùn)動(dòng)。單個(gè)電極編碼不同的發(fā)音運(yùn)動(dòng)軌跡(AKTs),每一個(gè)都顯示了特定聲道形狀的發(fā)音器官協(xié)調(diào)運(yùn)動(dòng)。AKTs能捕捉到多種不同的聲帶運(yùn)動(dòng)類型并且可以根據(jù)聲帶收縮的部位來區(qū)分。此外,AKTs還表現(xiàn)出與諧波動(dòng)態(tài)變化相關(guān)運(yùn)動(dòng)前后的軌跡。雖然AKTs在不同句子中的功能具有一致特性,在同一音位產(chǎn)生過程中,上下文相關(guān)的動(dòng)作前后的編碼反映了協(xié)同發(fā)音的皮層表征。感覺運(yùn)動(dòng)皮層的發(fā)音運(yùn)動(dòng)編碼產(chǎn)生了連續(xù)語音發(fā)音的復(fù)雜的運(yùn)動(dòng)軌跡基礎(chǔ)。
研究背景
為了能夠產(chǎn)生流利地表達(dá),研究者們用近100塊肌肉來完成一項(xiàng)運(yùn)動(dòng)控制任務(wù),以快速塑造和重塑發(fā)聲系統(tǒng),產(chǎn)生連續(xù)的語音片段進(jìn)而形成單詞和短語。發(fā)音器官(嘴唇,頜骨,舌頭和喉部)的運(yùn)動(dòng)是精確協(xié)調(diào)的,以產(chǎn)生特定的聲道模式。先前的研究通過語言特征(例如,音位--成熟的聲音研究單位)對(duì)這些動(dòng)作進(jìn)行編碼,發(fā)現(xiàn)了腹側(cè)感覺運(yùn)動(dòng)皮層(ventral sensorimotor cortex,vSMC)中的神經(jīng)編碼與假定的潛在發(fā)音運(yùn)動(dòng)有關(guān)。然而,完全理解vSMC神經(jīng)群如何表征語音產(chǎn)生過程中的實(shí)際發(fā)音運(yùn)動(dòng)仍然存在兩方面的挑戰(zhàn)。
1)如何超越大多數(shù)研究中采用的實(shí)驗(yàn)上方便的方法?即,從在孤立的語音段中的研究vSMC,朝著研究自然、連續(xù)語音產(chǎn)生中的更豐富、更復(fù)雜的運(yùn)動(dòng)動(dòng)力學(xué)方向發(fā)展。
2)如何超越范疇語言特征(如音位或音節(jié)),去描述運(yùn)動(dòng)的精確表征?即,研究真實(shí)的發(fā)音運(yùn)動(dòng)軌跡。
克服這些挑戰(zhàn)對(duì)于理解流利表達(dá)至關(guān)重要。雖然語音通常被描述為在任何給定時(shí)間具有局部不變性的離散成分的組合(即音位或發(fā)音系統(tǒng)姿態(tài),但是語音片段產(chǎn)生的發(fā)音運(yùn)動(dòng)仍可能受到先前和即將出現(xiàn)的語音片段(稱為協(xié)同發(fā)音)的影響。例如,在“cool”中,在/k/后會(huì)出現(xiàn)/u/所需的圓形唇形,而在“keep”中,/k/則在預(yù)期出現(xiàn)/i/時(shí)被顎化。所以,研究的核心問題仍然是,大腦皮層控制是否調(diào)用這些原始運(yùn)動(dòng)模式組合來執(zhí)行更復(fù)雜的任務(wù)?
為了解決這些問題,研究者們使用高密度顱內(nèi)腦電圖(ECoG)記錄被試大聲說出完整句子時(shí)的腦電信號(hào)。關(guān)注連續(xù)表達(dá)的句子有助于研究獨(dú)立音節(jié)發(fā)音時(shí)無法獲得的發(fā)音器官運(yùn)動(dòng)的動(dòng)態(tài)協(xié)同功能。此外,由于自然語音中可能存在各種各樣的發(fā)音運(yùn)動(dòng),因此研究者使用的句子覆蓋了美式英語中幾乎所有的語音和發(fā)音環(huán)境。此方法能夠根據(jù)聲帶運(yùn)動(dòng)來表征語音產(chǎn)生過程中的感覺運(yùn)動(dòng)皮層活動(dòng)。
研究自然語言機(jī)制的一個(gè)主要障礙是,只能用高時(shí)空分辨率的跟蹤舌運(yùn)動(dòng)的專用工具來監(jiān)測(cè)內(nèi)聲帶運(yùn)動(dòng)的持續(xù)時(shí)間,而這些工具大多與顱內(nèi)記錄不兼容,也不適合捕捉自然語言言語模式。為了克服這個(gè)障礙,研究者們開發(fā)了一種一種統(tǒng)計(jì)方法,可以從產(chǎn)生的聲學(xué)信號(hào)推導(dǎo)聲道運(yùn)動(dòng)。然后,使用推斷出的發(fā)音運(yùn)動(dòng)軌跡來確定發(fā)音運(yùn)動(dòng)的神經(jīng)編碼,以一種與模型無關(guān)且不可知的方式來確定語音生成中使用的預(yù)定義發(fā)音和聲學(xué)模式(例如音位和姿態(tài))。并通過學(xué)習(xí)發(fā)音運(yùn)動(dòng)和電極神經(jīng)活動(dòng)如何組合,估計(jì)單個(gè)電極的發(fā)音運(yùn)動(dòng)軌跡(AKTs),并通過語音vSMC描繪發(fā)音運(yùn)動(dòng)的異質(zhì)性。
研究方法
參與者
研究共招募5名女性參與者,在大腦側(cè)面高密度硬膜下慢性植入電極陣列(2個(gè)左半球網(wǎng)格,3個(gè)右半球網(wǎng)格)作為癲癇臨床治療的一部分。在手術(shù)前簽署書面知情同意。
實(shí)驗(yàn)任務(wù)
要求參與者朗讀來自MOCHA-TIMIT數(shù)據(jù)庫(kù)的460個(gè)句子。實(shí)驗(yàn)共包括9個(gè)block(其中8個(gè)包含50個(gè)句子,1個(gè)包含60個(gè)句子),在患者住院的幾天內(nèi)執(zhí)行實(shí)驗(yàn)任務(wù)。每個(gè)block中,在屏幕上呈現(xiàn)句子,一次一個(gè),讓參與者朗讀。句子的順序是隨機(jī)的。MOCHA-TIMIT是一個(gè)句子級(jí)別的數(shù)據(jù)庫(kù),是TIMIT語料庫(kù)的一個(gè)子集,旨在覆蓋美式英語中的所有語音文本。參與者將每句話讀1-10遍。麥克風(fēng)錄音與ECoG記錄是同步的。
數(shù)據(jù)采集和信號(hào)處理
使用Tucker Davis Technologies多通道放大器連接數(shù)字信號(hào),記錄皮層腦電。語音經(jīng)過數(shù)字放大,并通過麥克風(fēng)與皮層信號(hào)同時(shí)進(jìn)行記錄。ECoG電極排列成16*16,間距為4mm,放置由臨床因素決定。記錄時(shí)的采樣率為以3052hz。對(duì)每個(gè)通道進(jìn)行目測(cè)和定量檢查,以確定是否存在偽跡或過度噪聲(60Hz的工頻干擾)。用Hilbert變換提取局部場(chǎng)電位(70~150hz)的high-gamma頻段的振幅,并將其降采樣到200hz。最后,將30 s窗口內(nèi)的信號(hào)使用平均值和標(biāo)準(zhǔn)差進(jìn)行z分?jǐn)?shù)轉(zhuǎn)化,以便對(duì)不同的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。研究使用high-gamma頻段的振幅,因?yàn)樗c多單元放電率(multi-unit firing rates)的相關(guān)性好,并且具有解決精細(xì)發(fā)音器官運(yùn)動(dòng)的高時(shí)間分辨率。
語音和音位記錄
對(duì)于收集到的語音錄音,在單詞的層面進(jìn)行人工校正,以反映參與者實(shí)際發(fā)出的聲音。根據(jù)句子級(jí)別的錄音和聲學(xué)信息,為每個(gè)參與者建立了基于hidden Markov模型的聲學(xué)模型,以實(shí)現(xiàn)亞語音(sub-phonetic)對(duì)齊。根據(jù)語音、音節(jié)和詞的上下文產(chǎn)生語音上下文特征。
與說話者無關(guān)的聲學(xué)-發(fā)音轉(zhuǎn)換(acoustic-to-articularoty inversion, AAI)
為了對(duì)只有聲學(xué)數(shù)據(jù)可用的參與者進(jìn)行發(fā)音逆推,我研究者發(fā)明了與說話者無關(guān)的聲學(xué)-發(fā)音轉(zhuǎn)換(acoustic-to-articularoty inversion, AAI)法,模擬參與者的并行的EMA(electromagnetic midsagittal articulography)和語音數(shù)據(jù)。
小編注:EMA是一種可以清晰的看見參與者在發(fā)音時(shí)每個(gè)部位(唇、舌頭、喉嚨、下巴)的運(yùn)動(dòng)變化。
使用8名EMA參與者的聲譜特征與想要推斷聲道運(yùn)動(dòng)軌跡的5名目標(biāo)參與者進(jìn)行匹配,對(duì)EMA參與者的聲譜特征進(jìn)行聲音變換,以令每個(gè)EMA的聲譜數(shù)據(jù)都與目標(biāo)參與者的相匹配,來實(shí)現(xiàn)將所有聲學(xué)數(shù)據(jù)應(yīng)用到目標(biāo)參與者的轉(zhuǎn)換。該方法假設(shè)兩個(gè)參與者的聲學(xué)數(shù)據(jù)對(duì)應(yīng)相同句子。
由于沒有關(guān)于目標(biāo)參與者的運(yùn)動(dòng)軌跡信息,研究者對(duì)8名EMA記錄者的發(fā)音空間的平均值進(jìn)行標(biāo)準(zhǔn)化。為了對(duì)運(yùn)動(dòng)數(shù)據(jù)能在參與者間使用利用,對(duì)于每個(gè)EMA數(shù)據(jù)上進(jìn)行特定的發(fā)音z分?jǐn)?shù)變換。確保目標(biāo)參與者的發(fā)音運(yùn)動(dòng)軌跡在所有可用的EMA數(shù)據(jù)中是一個(gè)無偏的平均值。運(yùn)動(dòng)軌跡由13維特征向量描述(12維表示6個(gè)聲道點(diǎn)的X、Y坐標(biāo),基頻F0表示喉功能)。
使用24維mel-cepstral系數(shù)作為聲譜特征。運(yùn)動(dòng)軌跡和聲學(xué)的采樣頻率均為200hz(每個(gè)特征向量代表一段5ms的語音)。此外,每一幀語音對(duì)應(yīng)的音位和語音信息被編碼為一維有效編碼(one-hot vector),并填充到聲學(xué)特征上。這些特征包括音位同一性、音節(jié)位置、詞性、當(dāng)前及相鄰音位和音節(jié)狀態(tài)的位置特征。結(jié)果發(fā)現(xiàn),前后背景數(shù)據(jù)為聲學(xué)提供了補(bǔ)充信息,提高了逆推精度。
針對(duì)目標(biāo)參與者創(chuàng)建并行語音數(shù)據(jù)集和EMA數(shù)據(jù)的模擬數(shù)據(jù)集,這兩個(gè)數(shù)據(jù)集都是針對(duì)目標(biāo)參與者定制的。為了訓(xùn)練逆推模型,使用基于深度遞歸神經(jīng)網(wǎng)絡(luò)的發(fā)音逆推技術(shù)來學(xué)習(xí)從聲譜和語音背景到說話者通用發(fā)音空間的映射。本研究選擇具有兩個(gè)前饋層(200個(gè)隱藏節(jié)點(diǎn))和兩個(gè)雙向LSTM(long short-term memory)層(100個(gè)LSTM cells)的4層深度遞歸網(wǎng)絡(luò)的最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)。然后將訓(xùn)練好的逆推模型應(yīng)用于目標(biāo)參與者的所有語音,以笛卡爾X坐標(biāo)和Y坐標(biāo)的形式推斷出發(fā)音器官運(yùn)動(dòng)。該網(wǎng)絡(luò)是使用Keras實(shí)現(xiàn)的,它是一個(gè)在Tensorflow后端運(yùn)行的深度學(xué)習(xí)庫(kù)。
電極選擇
選擇中央前回和中央后回的電極,因?yàn)樗鼈冊(cè)谘哉Z產(chǎn)生過程中具有明顯的high-gamma活動(dòng)。我們用一個(gè)給定電極的類間與類內(nèi)的變化率(F統(tǒng)計(jì)量)來測(cè)量音位的可分性。選擇F最大值大于或者等于8的電極。5名參與者中,總共有108個(gè)電極在語音產(chǎn)生過程中具有強(qiáng)大的活動(dòng)性。
編碼模型
為了揭示電極所代表的運(yùn)動(dòng)軌跡,我們使用線性編碼模型來描述在每個(gè)電極上記錄的high-gamma活動(dòng),作為一個(gè)隨時(shí)間變化的發(fā)音器官運(yùn)動(dòng)軌跡加權(quán)和。在我們的模型中,使用了發(fā)音器X和Y坐標(biāo)來代替聲譜成分。該模型估計(jì)每個(gè)電極i的時(shí)間序列Xi(t)作為發(fā)音器官運(yùn)動(dòng)器A的卷積,包括運(yùn)動(dòng)軌跡參數(shù)K和濾波器H,我們將其稱為電極的發(fā)音器官運(yùn)動(dòng)軌跡(AKT)編碼。
將聲學(xué)和音位編碼模型與電極活動(dòng)相匹配。用共振峰(F1、F2和F3)代替發(fā)音器的X和Y坐標(biāo)來描述聲學(xué)信息和句子中產(chǎn)生的音位。每一個(gè)特征的1或0分別表示一個(gè)特定的音位是否產(chǎn)生。
編碼模型用ridge回歸擬合,用交叉驗(yàn)證訓(xùn)練數(shù)據(jù),70%的數(shù)據(jù)用于訓(xùn)練,10%的數(shù)據(jù)用于估計(jì)ridge參數(shù),20%作為最終測(cè)試集。最后測(cè)試由完全獨(dú)立于訓(xùn)練句子的錄音中的句子組成。測(cè)試模型預(yù)測(cè)響應(yīng)與最終測(cè)試集中測(cè)量的實(shí)際高high-gamma之間的相關(guān)性。
層級(jí)聚類
使用Ward的方法進(jìn)行聚集層次聚類。對(duì)每個(gè)電極的編碼運(yùn)動(dòng)軌跡的運(yùn)動(dòng)描述單獨(dú)進(jìn)行電極聚類。為了為每個(gè)運(yùn)動(dòng)軌跡開發(fā)簡(jiǎn)明的運(yùn)動(dòng)軌跡描述,提取了個(gè)發(fā)音器官的最大位移點(diǎn)。用主成分分析法對(duì)每一個(gè)發(fā)音器提取解釋方差最大的發(fā)音器方向。然后,將濾波器權(quán)重映射到每個(gè)發(fā)音器官的第一主成分上,并選擇最大值的點(diǎn)。根據(jù)每個(gè)電極的音位編碼權(quán)重對(duì)音位進(jìn)行聚類。對(duì)于給定的電極,在給定的電極的最大音位可辨別性點(diǎn)處,提取長(zhǎng)度為100ms的時(shí)間窗中每個(gè)音位的最大編碼權(quán)重。
皮層表面提取和電極可視化
為了觀察參與者大腦皮層表面的電極,在SPM12進(jìn)行配準(zhǔn)并結(jié)合T1及CT顯示電極位置。用Freesurfer重建軟腦膜表面。為了在MNI空間觀察參與者的電極,在Freesurfer中使用基于球面sulcal的對(duì)齊方式進(jìn)行了非線性表面配準(zhǔn),并與mni152模板中的cvs avg35對(duì)齊。
解碼模型
為了解碼發(fā)音運(yùn)動(dòng),研究者們訓(xùn)練了一個(gè)長(zhǎng)短期記憶(LSTM,long short-term memory)遞歸神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)從high-gamma活動(dòng)到發(fā)音運(yùn)動(dòng)的映射。LSTM特別適合學(xué)習(xí)具有時(shí)間相關(guān)信息的映射。LSTM使用500 ms時(shí)間窗的high-gamma活動(dòng),從所有vSMC電極中,以解碼樣本為中心,預(yù)測(cè)每個(gè)發(fā)音器官位置樣本。解碼器結(jié)構(gòu)是一個(gè)4層的深度遞歸網(wǎng)絡(luò),具有兩個(gè)前饋層(每個(gè)100個(gè)隱藏節(jié)點(diǎn))和兩個(gè)雙向LSTM層(100個(gè)cell)。使用Adam優(yōu)化和丟棄(dropout )(40%的節(jié)點(diǎn)),訓(xùn)練網(wǎng)絡(luò)以減少解碼和實(shí)際輸出的均方誤差。該網(wǎng)絡(luò)是使用Keras實(shí)現(xiàn)的,它是一個(gè)在Tensorflow后端運(yùn)行的深度學(xué)習(xí)庫(kù)。
量化和統(tǒng)計(jì)分析
嵌套編碼模型比較
使用嵌套回歸模型來比較單個(gè)發(fā)音器官軌跡的神經(jīng)編碼與AKT模型。對(duì)于每一個(gè)電極,我們使用每個(gè)EMA傳感器的X和Y方向擬合單個(gè)發(fā)音器官軌跡模型,并選擇對(duì)保留數(shù)據(jù)具有最小殘差平方和(RSS)的單個(gè)發(fā)音器官模型。根據(jù)完全(2)和嵌套(1)模型的RSS值,我們通過計(jì)算每個(gè)電極的F統(tǒng)計(jì)量來比較解釋方差的顯著性。
p和n分別是RSS計(jì)算中使用的模型參數(shù)和樣本數(shù)。當(dāng)F統(tǒng)計(jì)量大于由兩個(gè)模型中參數(shù)個(gè)數(shù)和置信區(qū)間定義的臨界值時(shí),說明在考慮參數(shù)個(gè)數(shù)的差異后,全模型(AKT)在統(tǒng)計(jì)學(xué)上顯著解釋了比嵌套模型(單個(gè)發(fā)音器)更多的方差。
相關(guān)結(jié)構(gòu)比較
為了測(cè)試語音響應(yīng)電極在low-gamma活動(dòng)期和high-gamma活動(dòng)期之間,發(fā)音器的相關(guān)結(jié)構(gòu)(EMA點(diǎn))是否不同,基于給定電極的high-gamma活動(dòng)z分?jǐn)?shù)是否高于閾值(1.5),將推斷出的發(fā)音器運(yùn)動(dòng)分成兩個(gè)數(shù)據(jù)集。然后從每個(gè)數(shù)據(jù)集中隨機(jī)抽取1000個(gè)發(fā)音器官運(yùn)動(dòng)點(diǎn),構(gòu)建兩個(gè)發(fā)音器官間的交叉相關(guān)結(jié)構(gòu)。為了量化相關(guān)結(jié)構(gòu)之間的差異,計(jì)算兩個(gè)結(jié)構(gòu)之間的歐氏距離(Euclidean distances)。然后,從低于閾值的數(shù)據(jù)集中額外抽取1000個(gè)點(diǎn),以量化亞閾值(sub-threshold )數(shù)據(jù)中相關(guān)結(jié)構(gòu)之間的差異。我們對(duì)每個(gè)電極重復(fù)這一過程1000次,使用Wilcoxon秩和檢驗(yàn)(經(jīng)過Bonferroni檢驗(yàn))比較歐氏距離的兩種分布,以確定發(fā)音器官的相關(guān)結(jié)構(gòu)是否與電極的高或低頻gamma活動(dòng)有關(guān)。
輪廓分析
為了評(píng)估聚類的可分性,計(jì)算每個(gè)電極的輪廓指數(shù),基于給定特征比較每個(gè)電極與它自身聚類的匹配程度。通過計(jì)算同一聚類內(nèi)所有電極的平均不相似度與最近聚類內(nèi)電極的平均不相似度之差,計(jì)算出電極的輪廓指數(shù)。然后,通過取兩個(gè)度量中的最大值來規(guī)范化該值。輪廓指數(shù)接近1表明電極與其自身的聚類高度匹配。0表示聚類可能重疊,而-1表示電極可能分配給錯(cuò)誤的聚類。
音位選擇性指數(shù)(PSI)
為了確定每個(gè)電極的音位選擇性,我們使用Mesgarani等人(2014)描述的統(tǒng)計(jì)框架,來測(cè)試在兩個(gè)不同音位的產(chǎn)生過程中,電極的high-gamma活動(dòng)是否存在顯著差異。對(duì)于一組音位對(duì)和一個(gè)給定的電極,根據(jù)與每個(gè)音位對(duì)齊的數(shù)據(jù)創(chuàng)建了兩個(gè)high-gamma活動(dòng)分布。使用非參數(shù)統(tǒng)計(jì)假設(shè)檢驗(yàn)(Wilcox秩和檢驗(yàn))來評(píng)估這些分布是否有不同的中位數(shù)(p<0.001)。PSI為0表示沒有其他音位具有不同的(可區(qū)分)的high-gamma活動(dòng),PSI為40則表明其他所有音位都具有不同的(可區(qū)分的)high-gamma活動(dòng)。
混合效應(yīng)模型
為了研究high-gamma與聯(lián)合發(fā)音運(yùn)動(dòng)軌跡之間的關(guān)系,使用具有多個(gè)交叉隨機(jī)效應(yīng)的混合效應(yīng)模型。對(duì)于給定的電極,在目標(biāo)音位產(chǎn)生期間,以該電極的F峰值為中心的50 ms窗口期間取high-gamma活動(dòng)的中位數(shù)來計(jì)算“活動(dòng)峰值”。然后,取每個(gè)唯一音位對(duì)(目標(biāo)音音vs上下文音位,其中目標(biāo)音位前面是上下文音位)的平均活動(dòng)峰值。對(duì)于每個(gè)電極,只考慮PSI>25的音位對(duì)。在圖6C、6D、6H和6I中,將/z/擴(kuò)展為包含/z/和/s/,并將/p/擴(kuò)展為包含/p/和/b/,因?yàn)閺?/span>EMA的角度來看,發(fā)音幾乎相同,它增加了可以分析的聯(lián)合發(fā)音實(shí)例的數(shù)量,從而減少了來自其他上下文效果的偏差和來自噪聲的可變性。并計(jì)算由AKT模型預(yù)測(cè)的high-gamma活動(dòng),以提供對(duì)特定音位對(duì)產(chǎn)生過程中的運(yùn)動(dòng)軌跡的洞察。為了確定模型的優(yōu)度,使用方差分析將模型與保留交叉隨機(jī)效應(yīng)但去除固定效應(yīng)的嵌套模型進(jìn)行比較?;旌闲?yīng)模型使用R中的lme4包進(jìn)行擬合。
圖6.發(fā)音器官運(yùn)動(dòng)軌跡的神經(jīng)表征
(A)下門牙不同程度的預(yù)期發(fā)音器官發(fā)音的示例。顯示了針對(duì)/?z/和/?p/的下切牙(y方向)的平均跡線,該平均跡線與/?/的聲學(xué)發(fā)作對(duì)齊。
(B)電極120密切相關(guān)地參與到元音AKT(下頜張開和喉嚨控制)/?/的產(chǎn)生,并且對(duì)/?/具有高的語音選擇性。
(C)在/?z/和/?p/的產(chǎn)生期間,電極120的平均high-gamma活動(dòng)。
(D)由(B)中AKT預(yù)測(cè)的high-gamma活動(dòng)平均預(yù)測(cè)。
(E)混合效應(yīng)模型顯示了high-gamma活動(dòng)與運(yùn)動(dòng)變異性的關(guān)系,這是由于所有電極和音位的后續(xù)音位的預(yù)期聯(lián)合發(fā)音效應(yīng)(β=0.30,SE=0.04,?2(1)=38.96,p=4e-10)。
(F)下門牙不同程度保留聯(lián)合發(fā)音示例。顯示了針對(duì)/?z/和/ iz /的下切牙(y方向)的平均跡線,該平均跡線與/ z /的聲學(xué)起點(diǎn)對(duì)齊。
(G)電極122至關(guān)重要地參與了冠狀AKT的/ z /的產(chǎn)生,并且對(duì)/ z /具有高的語音選擇性。
(H)在/?z/和/ iz /的產(chǎn)生期間電極122的平均high-gamma活動(dòng)。/?z/的中值高頻γ值明顯高于/ iz /(p <0.05,Wilcoxon符號(hào)秩檢驗(yàn))。
(I)在(G)中由AKT預(yù)測(cè)的high-gamma活動(dòng)的平均預(yù)測(cè)。
(J)混合效應(yīng)模型顯示,由于所有電極和音位的先前音位的殘留協(xié)同發(fā)音效應(yīng),high-gamma系數(shù)與運(yùn)動(dòng)軌跡變異性之間的關(guān)系(β = 0.32,SE = 0.04,?2(1)= 42.58,p = 6e-11)。/?z/(綠色)和/ iz /(藍(lán)色)從(H)和(I)的關(guān)系顯示為點(diǎn)。
結(jié)果
發(fā)音運(yùn)動(dòng)軌跡推斷結(jié)果
圖1.推斷的發(fā)音器官運(yùn)動(dòng)軌跡
A.EMA記錄期間記錄發(fā)音器官信號(hào)的傳感器大概位置。中正矢狀面運(yùn)動(dòng)以笛卡爾x和y坐標(biāo)來表示。
(B)從聲學(xué)和語音特征(彩色)推斷出發(fā)音器中正矢狀運(yùn)動(dòng)。每個(gè)參考傳感器的軌跡以黑色顯示。
(C)記錄的發(fā)音器官運(yùn)動(dòng)(EMA)顯示了投射在低維(LDA)空間上的輔音和元音。
使用留一法(leave-one-out)交叉驗(yàn)證,測(cè)試參與者的推斷軌跡與真實(shí)基線EMA的平均相關(guān)性,r為0.68±0.11。圖1B顯示了在一列看不見說話者的測(cè)試表達(dá)期間,每個(gè)發(fā)音器官的推測(cè)EMA軌跡和真實(shí)基線EMA軌跡。所有推斷出的發(fā)音器官運(yùn)動(dòng)軌跡與真實(shí)的用來參考的發(fā)音器官運(yùn)動(dòng)軌跡之間都具有高度相關(guān)性。圖S1A顯示了12個(gè)發(fā)音器官的詳細(xì)性能。
圖S1 聲學(xué)-發(fā)音逆推
為了測(cè)試AAI方法在推斷聲學(xué)信號(hào)相關(guān)的發(fā)音器官運(yùn)動(dòng)能力,對(duì)真實(shí)和推斷的EMA,研究者們訓(xùn)練了相同的深度遞歸網(wǎng)絡(luò)進(jìn)行發(fā)音器官合成,比如從發(fā)音器官運(yùn)動(dòng)軌跡預(yù)測(cè)聲譜(編碼為24維mel-cepstral系數(shù)和能量)。結(jié)果表明,使用目標(biāo)參與者真實(shí)EMA或通過AAI方法推斷出來的EMA預(yù)測(cè)的隱藏語音聲譜沒有顯著差異(p = 0.4;圖S1B和S1C)。這表明,推斷的和實(shí)際的EMA之間的差異可能在很大程度上由于運(yùn)動(dòng)偏移不具有明顯的聲學(xué)影響。也可能包括其他因素傳感器位置,噪音收集和其他說話者/記錄可能與聲學(xué)信號(hào)不相關(guān)的特定偽跡差異。
為了進(jìn)一步驗(yàn)證AAI方法,研究者檢查了推斷的運(yùn)動(dòng)軌跡保留語音結(jié)構(gòu)的程度。分析了由真實(shí)和推斷的音位運(yùn)動(dòng)軌跡產(chǎn)生的音標(biāo)聚類。對(duì)于一個(gè)參與者的真實(shí)和推斷的EMA,構(gòu)建了一個(gè)音位運(yùn)動(dòng)軌跡起點(diǎn)200毫秒左右的分析窗口。然后,使用線性判別分析(linear discrimant analysis, LDA)從真實(shí)EMA數(shù)據(jù)中模擬音位之間的運(yùn)動(dòng)軌跡差異。并將音位的真實(shí)和推斷EMA數(shù)據(jù)都放置在此二維LDA空間中,以觀察真實(shí)和推斷EMA之間的語音結(jié)構(gòu)相對(duì)差異。結(jié)果發(fā)現(xiàn),在推斷的和實(shí)際的運(yùn)動(dòng)軌跡數(shù)據(jù)之間,音位重心之間的音位聚類和相對(duì)距離在很大程度上得到了保留(圖1C)(輔音相關(guān)性r = 0.97,元音相關(guān)性r = 0.97;p <0.001)。總之,這些結(jié)果表明,使用運(yùn)動(dòng)軌跡與聲學(xué)和語言學(xué)指標(biāo),從易于記錄的聲學(xué)信號(hào)中獲得對(duì)聲道運(yùn)動(dòng)的高分辨率描述是可能的。
vSMC單電極上的運(yùn)動(dòng)軌跡編碼
AKT模型可以很好地解釋語音過程中vSMC區(qū)域電極檢測(cè)到的神經(jīng)活動(dòng)(5個(gè)參與者中有108個(gè)電極;平均r = 0.25±0.08,最高為0.5,p <0.001)。研究者們?cè)诟鱾€(gè)發(fā)音器官上觀察到一致的模式,每個(gè)發(fā)音器官都顯示出一條軌跡,該軌跡在返回起點(diǎn)之前以有向的方式從起點(diǎn)出發(fā)。最大運(yùn)動(dòng)點(diǎn)描述了涉及多個(gè)發(fā)音器官協(xié)同工作的特定功能性聲道形狀。例如,圖2A中電極的AKT(圖2E)顯示了下切牙和舌尖在牙槽嵴處收縮時(shí)的明顯協(xié)調(diào)運(yùn)動(dòng)。此外,舌片和舌背向前移動(dòng),以便于舌尖的移動(dòng)。上唇和下唇保持張開,喉部不發(fā)聲。聲道結(jié)構(gòu)與齒槽收縮的典型特征相對(duì)應(yīng)(例如,產(chǎn)生/t/,/d/,/s/,/z/,等等)。在圖2D中,在產(chǎn)生/st/、/d?s/、和/nz/期間,可以明顯看到電極對(duì)這一特殊語音類別的調(diào)諧,測(cè)量和預(yù)測(cè)的high-gamma活動(dòng)都增加,所有這些都需要聲道的齒槽收縮。
圖2.發(fā)音器官運(yùn)動(dòng)軌跡的神經(jīng)編碼
(A)單個(gè)參與者的大腦磁共振成像(MRI)重建,其中在腹側(cè)感覺運(yùn)動(dòng)皮層(vSMC)中標(biāo)記了一個(gè)示例電極。
(B)在“刺激性討論”一詞的產(chǎn)生過程中推斷出的發(fā)音動(dòng)作。動(dòng)作方向按顏色區(qū)分(正x和y方向,紫色;負(fù)x和y方向,綠色)。
(C)通過擬合發(fā)音器官運(yùn)動(dòng)來解釋示例電極的high-gamma的時(shí)空濾波器。時(shí)間0表示與預(yù)測(cè)的神經(jīng)活動(dòng)樣本對(duì)齊。
(D)將時(shí)空濾波器與發(fā)音器官動(dòng)態(tài)運(yùn)動(dòng)進(jìn)行卷積可以解釋high-gamma活動(dòng)。
(E)映射到聲道中正矢狀視點(diǎn)的示例電極編碼濾波器權(quán)重表現(xiàn)出與語音相關(guān)的運(yùn)動(dòng)軌跡運(yùn)動(dòng)軌跡(AKT)。軌跡的時(shí)間過程由細(xì)到粗的線表示。喉音(通過發(fā)聲進(jìn)行音高調(diào)制)沿y軸為一維,x軸為時(shí)程。
使用了交叉驗(yàn)證嵌套回歸模型,將單個(gè)發(fā)音器官運(yùn)動(dòng)軌跡的神經(jīng)編碼與AKT模型進(jìn)行了比較。將一個(gè)發(fā)音器官對(duì)應(yīng)一個(gè)EMA傳感器。用80%的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,并對(duì)其余20%的數(shù)據(jù)進(jìn)行測(cè)試。對(duì)于每個(gè)電極,使用與其對(duì)應(yīng)的估計(jì)EMA傳感器的x和y兩個(gè)方向來擬合單個(gè)發(fā)音器官軌跡模型,并選擇一個(gè)在與AKT模型比較中表現(xiàn)最好的發(fā)音器官模型。在對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行測(cè)試發(fā)現(xiàn),AKT模型描述的多發(fā)音器官模式比單發(fā)音器官軌跡模型解釋的差異更大(F(280,1820)>1.31,108個(gè)電極中96個(gè)的p<0.001,平均F =6.68,p<0.001,Wilcoxon符號(hào)秩檢驗(yàn);)。這意味著,單電極的活動(dòng)與涉及多個(gè)發(fā)音器官的聲帶運(yùn)動(dòng)模式的關(guān)聯(lián)比與單個(gè)發(fā)音器官的關(guān)聯(lián)更大。
發(fā)音相關(guān)結(jié)構(gòu)的差異取決于high-gamma活動(dòng)是高還是低(閾值為1.5sds)(108個(gè)電極p<0.001,Bonferroni校正),這表明,除了聲帶生物力學(xué)特性引起的協(xié)調(diào)外,各發(fā)音器官之間的協(xié)調(diào)性也反映在神經(jīng)活動(dòng)的變化上。vSMC上的發(fā)音運(yùn)動(dòng)組織結(jié)構(gòu)存在與協(xié)調(diào)運(yùn)動(dòng)的肢體控制類似的皮質(zhì)編碼,在一個(gè)電極的神經(jīng)活動(dòng)編碼多個(gè)發(fā)音器官特定協(xié)調(diào)運(yùn)動(dòng)軌跡。
圖3.發(fā)音運(yùn)動(dòng)軌跡聚類和語音結(jié)果
(A)5個(gè)參與者的所有108個(gè)電極的編碼發(fā)音器官運(yùn)動(dòng)軌跡(AKT)的層次聚類。每一列代表一個(gè)電極。AKTS的動(dòng)態(tài)運(yùn)動(dòng)被描述為沿著每個(gè)發(fā)音器官的主運(yùn)動(dòng)軸的最大位移點(diǎn)的七維向量。
(B)每個(gè)電極的音位編碼模型。運(yùn)動(dòng)群集電極也編碼四個(gè)編碼的音位群集,這些音位由發(fā)音部位(齒槽、雙唇、舌根后部和聲道)區(qū)分。
(C)群集中所有電極的平均AKT。除聲音控制外,四種截然不同的聲道結(jié)構(gòu)還包括冠狀,唇側(cè)和背側(cè)收縮。
使用層次聚類法根據(jù)電極的發(fā)音運(yùn)動(dòng)描述來組織電極(圖3A)。為了從語音學(xué)角度解釋這些聚類,研究者為每個(gè)電極建立了一個(gè)音位編碼模型。與AKT模型相似,電極活動(dòng)被看作一個(gè)音位的加權(quán)和,其中每個(gè)音位的值要么是1,要么是0,這取決于它是否在給定的時(shí)間被發(fā)出。對(duì)于每個(gè)電極,提取每個(gè)音位的最大編碼權(quán)重。每個(gè)電極的編碼音位顯示順序與發(fā)音運(yùn)動(dòng)群電極相同(圖3B)。
一個(gè)清晰的組織結(jié)構(gòu)揭示了AKT之間的共同發(fā)音模式。第一級(jí)根據(jù)下頜運(yùn)動(dòng)的方向(下門牙上下)來組織AKTs。亞層為具有明顯的協(xié)調(diào)發(fā)音模式的四個(gè)主要AKTs聚類。將每個(gè)聚類的AKT平均起來,得到每個(gè)聚類的代表性AKT(圖3C)。其中三組描述了聲道的收縮:冠狀、唇狀和舌背,廣泛覆蓋英語中所有輔音。另一組描述了一個(gè)元音(元音)AKT,涉及喉部活動(dòng)和下頜張開運(yùn)動(dòng)。
研究者還發(fā)現(xiàn)電極對(duì)一組特定的音位表現(xiàn)出高度特異性,而不是分散式表征單個(gè)音位。每個(gè)AKT聚類內(nèi)的電極也主要編碼具有相同規(guī)范定義發(fā)音位置的音位。例如,冠狀AKT聚類內(nèi)的電極對(duì)/t/、/d/、/n/、/?/、/s/和/z/更敏感,所有這些音位都具有相似的發(fā)音位置。然而,聚類的內(nèi)部存在一定差異。例如,在冠狀AKT群(圖3A和3B,綠色)中,表現(xiàn)出相對(duì)較弱的舌尖運(yùn)動(dòng)(淺紫色)的電極,其語音結(jié)果較少局限于牙槽緊縮部位的音位(音位--綠色簇中的淺黑色)。
同時(shí),對(duì)音位編碼權(quán)重進(jìn)行了層次聚類,以識(shí)別音位結(jié)構(gòu),以便與AKTs進(jìn)行比較并幫助解釋AKTs的聚類。這些結(jié)果證實(shí)研究者對(duì)vSMC語音結(jié)構(gòu)的描述:由發(fā)音位置定義的語音特征占主導(dǎo)地位。
為了解每個(gè)AKT聚類在運(yùn)動(dòng)和語音上的相互區(qū)別,使用輪廓指數(shù)作為聚類強(qiáng)度的度量,量化了每個(gè)AKT聚類的類內(nèi)相似度和聚類間相似度之間的關(guān)系。AKT類內(nèi)在運(yùn)動(dòng)軌跡和語音描述上的聚類強(qiáng)度明顯高于隨機(jī)分布,說明聚類內(nèi)具有相似的運(yùn)動(dòng)軌跡和語音結(jié)果(p<0.01,Wilcoxon符號(hào)秩檢驗(yàn))。
進(jìn)一步研究每個(gè)參與者vSMC上AKTs的解剖聚類。冠狀位和唇位AKTs的解剖聚類有顯著性差異(p<0.01,Wilcoxon符號(hào)秩檢驗(yàn)),背側(cè)和元音AKTs的解剖聚類無顯著性差異。為了進(jìn)一步研究AKT聚類的解剖位置,將所有參與者的電極位置投射到一個(gè)標(biāo)準(zhǔn)腦上(圖4)。發(fā)現(xiàn)AKTs存在根據(jù)運(yùn)動(dòng)功能和發(fā)音位置在空間上進(jìn)行定位的粗大的體感組織。由于AKTs編碼發(fā)音器官協(xié)調(diào)運(yùn)動(dòng),本研究并沒有發(fā)現(xiàn)單一發(fā)音器官的定位。例如,通過對(duì)發(fā)音運(yùn)動(dòng)的詳細(xì)描述,我們發(fā)現(xiàn)下切牙的運(yùn)動(dòng)并不是局限于一個(gè)區(qū)域;相反,開閉運(yùn)動(dòng)是分開表現(xiàn)的,分別見于元音相關(guān)和冠狀AKT。
圖4.聲帶運(yùn)動(dòng)的空間組織
來自五名參與者(2個(gè)左半球和3個(gè)右半球數(shù)據(jù))的電極,不同顏色表征投射到通過MRI重建大腦的vSMC位置的不同運(yùn)動(dòng)軌跡。電極透明度隨運(yùn)動(dòng)軌跡編碼模型中的皮爾森相關(guān)系數(shù)而變化。
軌道阻尼振蕩動(dòng)力學(xué)
為了進(jìn)一步研究每個(gè)AKT的軌跡動(dòng)力學(xué),我們分析了每個(gè)發(fā)音器官的相位圖(速度和位移關(guān)系)。在圖5A中,對(duì)于四個(gè)示例電極的AKT,分別顯示了每個(gè)發(fā)音器官沿其位移主軸的軌跡的編碼位置和速度,每個(gè)電極代表一個(gè)主AKT聚類。每個(gè)發(fā)音器官的運(yùn)動(dòng)軌跡由每個(gè)AKT的編碼權(quán)重決定。所有的軌跡都向外移動(dòng),然后回到與起點(diǎn)相同的位置,速度相應(yīng)地增加和減少,形成一個(gè)循環(huán)。即使是只做相對(duì)較小的動(dòng)作的發(fā)音器官也是這樣。圖5B顯示了來自所有108個(gè)AKT的每個(gè)發(fā)音器官的軌跡,這些軌跡再次說明了前后運(yùn)動(dòng)軌跡模式。給定發(fā)音器官的運(yùn)動(dòng)軌跡并沒有顯示出相同的位移程度,這表明了特定聚類內(nèi)AKTs的特異性水平。位移較大的軌跡也傾向于高速運(yùn)動(dòng)。
雖然每個(gè)AKT都指定了隨時(shí)間變化的發(fā)音器官運(yùn)動(dòng),但決定各個(gè)發(fā)音器官運(yùn)動(dòng)方式的動(dòng)態(tài)控制可能不隨時(shí)間變化。在發(fā)音運(yùn)動(dòng)研究中,用阻尼振蕩動(dòng)力學(xué)描述聲道姿態(tài)的時(shí)間不變特性。就像鐘擺一樣,運(yùn)動(dòng)的描述元素(即速度和位置)相互關(guān)聯(lián),而不依賴于時(shí)間。本研究發(fā)現(xiàn),AKTs所描述的每個(gè)發(fā)音器官的峰值速度和位移之間存在線性關(guān)系(圖5C;r分別為0.85、0.77、0.83、0.69、0.79和0.83;p<0.001),表明AKTs也表現(xiàn)出阻尼振蕩動(dòng)力學(xué)。此外,與每個(gè)發(fā)音器官相關(guān)的斜率顯示了該發(fā)音器官的相對(duì)速度。下切牙和上唇移動(dòng)最慢(斜率分別為0.65和0.65),舌頭速度隨舌體舌尖位置而變化,舌尖移動(dòng)最快(斜率分別為0.66、0.78和0.99)。這些動(dòng)態(tài)特征表明AKT形成一個(gè)定型化軌跡,以形成單個(gè)聲道配置,即次音節(jié)語音成分,充當(dāng)生成單個(gè)音節(jié)所需的多個(gè)聲道配置的基礎(chǔ)。雖然我們無法區(qū)分單個(gè)發(fā)音器官的動(dòng)力學(xué)特性是集中規(guī)劃的還是由聲道的生物力學(xué)特性決定的,但速度-位置關(guān)系強(qiáng)烈地表明,AKT模型對(duì)每個(gè)發(fā)音器官的運(yùn)動(dòng)進(jìn)行編碼,該編碼對(duì)應(yīng)于連續(xù)語音產(chǎn)生的內(nèi)在動(dòng)力學(xué)。
圖5.運(yùn)動(dòng)軌跡的阻尼振蕩動(dòng)力學(xué)
(A)來自每個(gè)運(yùn)動(dòng)軌跡聚類的事例電極的編碼AKT沿主運(yùn)動(dòng)軸的發(fā)音運(yùn)動(dòng)軌跡。正值表示向上運(yùn)動(dòng)和向前運(yùn)動(dòng)的組合。
(B)5位參與者的所有108條運(yùn)動(dòng)軌跡的發(fā)音器官運(yùn)動(dòng)軌跡。
(C)峰值速度與發(fā)音器官位移之間的線性關(guān)系(r分別為0.85、0.77、0.83、0.69、0.79和0.83;p <0.001)。
聯(lián)合發(fā)音器官運(yùn)動(dòng)軌跡
在預(yù)期聯(lián)合發(fā)音過程中,在當(dāng)前音位的產(chǎn)生過程中,可以觀察到即將到來的音位的運(yùn)動(dòng)效應(yīng)。例如,思考在/z/(如“has”)和/p/(如“tap”)的發(fā)音過程中下頜張開度(下切牙向下)的差異(圖6A)。/?/發(fā)音需要下巴張開,但張開的程度由即將到來的音位來調(diào)節(jié)。由于/z/的產(chǎn)生需要下頜閉合,因此在發(fā)出/?z/時(shí)下頜張開的較少,以補(bǔ)償/z/的要求。而/p/不需要下頜閉合,因此/?p/發(fā)音時(shí)下頜張開較多。在每一種情況下,下頜在/?/期間打開,但根據(jù)即將到來的運(yùn)動(dòng)的兼容性而不同程度地打開。
為了研究預(yù)期性聯(lián)合發(fā)音是否有神經(jīng)上的表征,研究者們關(guān)注在聯(lián)合發(fā)音程度不同的兩種情況下,產(chǎn)生/?z/和/?p/時(shí)神經(jīng)活動(dòng)的變化。圖6B中,電極120上AKT描述了下頜開口和喉聲帶結(jié)構(gòu)。/?/聲音起點(diǎn)的時(shí)間點(diǎn)上,/?p/誘發(fā)電極120的high-gamma的活動(dòng)高于/?z/(圖6C)。為了量化這種差異,研究者以所有音位的分辨峰值點(diǎn)為中心,比較了50 ms期間的中位high-gamma活動(dòng),發(fā)現(xiàn)顯著差異(p<0.05,Wilcoxon符號(hào)秩檢驗(yàn))。并且,在/?p/期間,AKT預(yù)測(cè)的high-gamma值同樣較高于/?z/(p<0.001,Wilcoxon符號(hào)秩檢驗(yàn))(圖6D)。在這個(gè)電極上,high-gamma活動(dòng)反映了發(fā)音運(yùn)動(dòng)的變化,源于預(yù)期的聯(lián)合發(fā)音效應(yīng)。
為了確定每個(gè)音位的所有預(yù)期情境中,聯(lián)合發(fā)音效應(yīng)是否在所有vSMC電極都存在。使用混合效果模型來研究給定電極的high-gamma在具有不同后續(xù)音位的音位發(fā)音過程中如何變化。該模型使用交叉隨機(jī)效應(yīng)來控制電極與電極和音位與音位的差異,并使用從AKT預(yù)測(cè)的high-gamma的固定效應(yīng)來描述每個(gè)電極的運(yùn)動(dòng)變異敏感性。在圖6E中,每行顯示了在至少25個(gè)實(shí)例中的所有后續(xù)語音環(huán)境中,給定音位和電極的high-gamma值與發(fā)音器官運(yùn)動(dòng)軌跡變異性之間的關(guān)系。結(jié)果發(fā)現(xiàn),與特定發(fā)音運(yùn)動(dòng)相關(guān)的神經(jīng)活動(dòng)受后續(xù)發(fā)音環(huán)境的運(yùn)動(dòng)軌跡約束的調(diào)節(jié)(β=0.30,SE=0.04,p<0,05)。這些特定聲道結(jié)構(gòu)的電極活動(dòng)反映了由于預(yù)期性和攜帶性聯(lián)合發(fā)音而引起的運(yùn)動(dòng)變異性。
與其他編碼模型的比較
為了評(píng)估AKT在vSMC中的編碼情況,我們比較了(1)AKT模型相對(duì)于其他皮層區(qū)域的編碼性能和(2)其他語音表型的vSMC編碼模型
圖7.神經(jīng)編碼模型評(píng)估
(A)在不同解剖區(qū)域中跨電極的AKT編碼性能的比較。
(B)電極的AKT和共振峰編碼模型的比較。使用F1,F2和F3,以與AKT模型相同的方式擬合共振峰編碼模型。每個(gè)點(diǎn)代表一個(gè)電極的兩個(gè)模型的性能。
(C)AKT和音位編碼模型的比較。音位模型以與AKT模型相同的方式進(jìn)行擬合,不同之處在于音位被描述為一維有效編碼(one-hot vector)。
為了確定AKT對(duì)vSMC的特異性,我們比較了受試者每個(gè)皮質(zhì)區(qū)域記錄的AKT模型表現(xiàn)(Pearson's r )(圖7A)。除了額葉中回(MFG)和眶部(n=4)的電極外,AKT模型顯著解釋了所有記錄到的皮層區(qū)域高于偶然水平的差異(p<0.001,Wilcoxon秩和檢驗(yàn))。然而,對(duì)于本研究中所考慮的電極(EIS),即vSMC中的語音激活的電極,AKT模型對(duì)神經(jīng)活動(dòng)的解釋明顯優(yōu)于其他皮質(zhì)區(qū)域(p<1e-15,Wilcoxon秩和檢驗(yàn))。我們檢查的其他皮質(zhì)區(qū)域之前都被證明參與語音處理的不同方面--聲學(xué)信號(hào)和語音加工(顳上回[STG]和顳中回[MTG])。因此,預(yù)計(jì)這些區(qū)域的皮質(zhì)活動(dòng)與產(chǎn)生的運(yùn)動(dòng)軌跡有一定的相關(guān)性。AKT模型在EIS中的較高性能表明,研究運(yùn)動(dòng)軌跡的神經(jīng)相關(guān)關(guān)系可能主要集中在vSMC。
雖然在vSMC中AKTs編碼最好,但可能有其他的語音表示方式可以更好地解釋vSMC的活動(dòng)。我們根據(jù)AKT模型評(píng)估了聲學(xué)(這里使用前三個(gè)共振峰:F1、F2和F3)和音位的vSMC編碼。每一個(gè)模型都以與AKT模型相同的方式進(jìn)行了擬合,并對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行比較。我們發(fā)現(xiàn),盡管AKT模型存在有局限性,發(fā)音運(yùn)動(dòng)的編碼明顯優(yōu)于聲學(xué)和音位編碼模型(圖7B和7C;p<1e-20,Wilcoxon秩和檢驗(yàn))。
解碼發(fā)音運(yùn)動(dòng)
使用長(zhǎng)-短期記憶遞歸神經(jīng)網(wǎng)絡(luò)(LSTM)對(duì)句子產(chǎn)生過程中的發(fā)音運(yùn)動(dòng)進(jìn)行解碼。圖8A表面,來自解碼器的預(yù)測(cè)發(fā)音運(yùn)動(dòng)與來自聲學(xué)的預(yù)測(cè)發(fā)音運(yùn)動(dòng)緊密匹配。對(duì)所有發(fā)音器的運(yùn)動(dòng)都進(jìn)行了很好的預(yù)測(cè),涵蓋了100個(gè)以上的句子,大大超過了隨機(jī)結(jié)果(平均r=0.43,p<0.001)。圖8B表明,可以使用自動(dòng)語音識(shí)別技術(shù)對(duì)ECoG錄音中的音位進(jìn)行解碼,進(jìn)而對(duì)完整句子進(jìn)行解碼。本研究表明,可以直接從神經(jīng)信號(hào)解碼發(fā)音運(yùn)動(dòng)。
圖8. vSMC活動(dòng)中解碼的發(fā)音器動(dòng)作
(A)保留數(shù)據(jù)集中的一個(gè)例子。在產(chǎn)生句子的過程中,發(fā)音器官運(yùn)動(dòng)的原始(黑色)和預(yù)測(cè)(彩色)x和y坐標(biāo)。每個(gè)發(fā)音器官軌跡的皮爾遜相關(guān)系數(shù)(r)。
(B)從訓(xùn)練集中得出的每個(gè)句子的100個(gè)句子的平均表現(xiàn)(相關(guān)性)。
總結(jié)
本研究描述了在連續(xù)語音產(chǎn)生的中的更豐富、更復(fù)雜的動(dòng)力學(xué)的運(yùn)動(dòng)皮層編碼。這些發(fā)現(xiàn)描繪了一幅關(guān)于發(fā)音的大腦皮層基礎(chǔ)和其他可能的連續(xù)運(yùn)動(dòng)任務(wù)的新圖景。協(xié)調(diào)的發(fā)音器官軌跡在局部進(jìn)行編碼并流暢地組合在一起,同時(shí)考慮到周圍的運(yùn)動(dòng)環(huán)境,以產(chǎn)生我們需要傳達(dá)的廣泛的聲道運(yùn)動(dòng)。
原文:Encoding of Articulatory Kinematic
Trajectories in Human Speech Sensorimotor Cortex
微信掃碼或者長(zhǎng)按選擇識(shí)別關(guān)注思影
如對(duì)思影課程感興趣也可微信號(hào)siyingyxf或18983979082咨詢。覺得有幫助,給個(gè)轉(zhuǎn)發(fā),或許身邊的朋友正需要。請(qǐng)直接點(diǎn)擊下文文字即可瀏覽思影科技其他課程及數(shù)據(jù)處理服務(wù),歡迎報(bào)名與咨詢,目前全部課程均開放報(bào)名,報(bào)名后我們會(huì)第一時(shí)間聯(lián)系,并保留名額。
更新通知:第十屆腦影像機(jī)器學(xué)習(xí)班(已確定)
更新通知:第十二屆磁共振彌散張量成像數(shù)據(jù)處理班(已確定)
第六屆任務(wù)態(tài)fMRI專題班(預(yù)報(bào)名,南京)
更新通知:第二十八屆磁共振腦影像基礎(chǔ)班(重慶,已確定)