在機(jī)器學(xué)習(xí)研究中,特征選擇是十分重要的一個環(huán)節(jié)。很多腦影像機(jī)器學(xué)習(xí)研究者更多追求的是所選特征的預(yù)測精度,而本文的作者更關(guān)注所選特征的可重復(fù)性。作者提出的基于圖論的FS-Select算法,在挑選出具有可重復(fù)性特征的同時(shí),兼顧了其預(yù)測準(zhǔn)確性。該研究由土耳其伊斯坦布爾科技大學(xué)的Nicolas Georges 等人發(fā)表在最近的Pattern Recognition雜志上。
關(guān)鍵詞:機(jī)器學(xué)習(xí) 特征選擇 腦連接組 圖論
考慮到在許多領(lǐng)域中(包括計(jì)算機(jī)視覺和醫(yī)療應(yīng)用程序,比如計(jì)算機(jī)輔助診斷)高維度數(shù)據(jù)的增加,用于在一個給定分類任務(wù)(如區(qū)分健康和混亂的大腦狀態(tài))中減少數(shù)據(jù)維度并識別最相關(guān)特征的高級技術(shù)是必要的。盡管使用特定的特征選擇(FS,Feature Selection)方法來提高分類精度的工作有很多,但是從現(xiàn)有的FS技術(shù)中選擇最佳的方法來提高感興趣的數(shù)據(jù)集中的特征的可重復(fù)性仍然是一個艱巨的挑戰(zhàn)。值得注意的是,一個特定的FS方法的良好性能并不一定意味著該實(shí)驗(yàn)是可重復(fù)的,也不意味著所確定的特征對于整個樣本來說是最優(yōu)的。本質(zhì)上,本文提出了解決以下挑戰(zhàn)的第一次嘗試: 給定一組不同的特征選擇方法和一組感興趣的數(shù)據(jù),那么如何識別最具有“可重復(fù)性”和“值得信賴”的連接特征,從而產(chǎn)生可靠的生物標(biāo)記來準(zhǔn)確區(qū)分兩種特定情況? 為了達(dá)到這個目的,研究者提出了FS-Select框架來探索不同的FS方法之間的關(guān)系。這個框架使用了一個基于每個FS方法的特征可重復(fù)效力、平均準(zhǔn)確度和特征穩(wěn)定性這三個指標(biāo)的multi-graph框架。通過提取“中心”graph節(jié)點(diǎn),研究者識別出了最可靠并且可重復(fù)的FS方法用于目標(biāo)大腦狀態(tài)分類任務(wù),同時(shí)識別出這些大腦狀態(tài)的最具識別性的特征。為了評估FS-Select的可重復(fù)性,研究者使用不同的交叉驗(yàn)證策略,對多視圖的小規(guī)模腦連接組數(shù)據(jù)集(晚期輕度認(rèn)知障礙vs阿爾茨海默病)和大規(guī)模腦連接組數(shù)據(jù)集(自閉癥患者vs健康受試者)的訓(xùn)練集進(jìn)行了擾動。他們的實(shí)驗(yàn)揭示了具有可重復(fù)性的表征異常大腦狀態(tài)的連接特征。 介紹最近的研究表明,神經(jīng)系統(tǒng)疾病,如阿爾茨海默病(AD)、自閉癥譜系障礙(ASD)或輕度認(rèn)知障礙(MCI),可以影響人類大腦的形態(tài)學(xué)連接。揭示這些神經(jīng)和精神疾病的形態(tài)學(xué)連接有助于改善這些疾病的診斷和預(yù)后。為此,許多研究利用了機(jī)器學(xué)習(xí)技術(shù)以及圖論分析技術(shù)找出健康的大腦和異常的大腦之間的聯(lián)系。一旦這些紊亂的連接(或特征)被識別出來,它們就可以作為生物標(biāo)記,從而有助于改善疾病的檢測并促進(jìn)有效的治療。在生物信息學(xué)中,研究人員通常使用小樣本數(shù)據(jù),這些數(shù)據(jù)中的每個樣本都具有很高的維度,這可能會導(dǎo)致目標(biāo)學(xué)習(xí)任務(wù)的問題(如偏差)。特征選擇(Feature Selection, FS)方法被認(rèn)為是解決這一問題的潛在方法,該方法從感興趣的數(shù)據(jù)集中提取高度相關(guān)的特征子集,以減少數(shù)據(jù)樣本的維數(shù),從而提高分類器的整體性能。學(xué)習(xí)如何有效且可靠地選擇具有較高分辨能力的特征子集是模式識別的基本要求之一。從高維數(shù)據(jù)中選擇特征的算法已經(jīng)進(jìn)行了廣泛的應(yīng)用研究。越來越多的工作延續(xù)了現(xiàn)有的FS(特征選擇)方法,試圖為他們的目標(biāo)應(yīng)用選擇最合適的FS技術(shù)。這表明,F(xiàn)S方法的性能在很大程度上隨輸入數(shù)據(jù)集的變化而變化,因此所選擇的方法會影響所產(chǎn)生的結(jié)果。另一方面,開發(fā)一種能夠產(chǎn)生最佳分類結(jié)果并為所有數(shù)據(jù)類型識別最可靠特性的新方法似乎是一個棘手的問題。此外,包括為HCP(Human Connectome Project)項(xiàng)目收集的結(jié)構(gòu)和功能磁共振成像(MRI)數(shù)據(jù)在內(nèi)的多中心醫(yī)學(xué)數(shù)據(jù)的不斷增加,對于設(shè)計(jì)能夠在不同中心數(shù)據(jù)中生成可重復(fù)的生物標(biāo)記的特征選擇方法提出了前所未有的挑戰(zhàn)。這是因?yàn)槊總€數(shù)據(jù)源都有其獨(dú)特的特征和統(tǒng)計(jì)分布,可能與其他數(shù)據(jù)源不匹配。因此,確定最佳的特征選擇方法來揭示特定數(shù)據(jù)集的固有特征仍然是一個主要的挑戰(zhàn)。然而,除了過去幾年在設(shè)計(jì)穩(wěn)健而精確的FS方法來識別神經(jīng)系統(tǒng)疾病的可靠生物標(biāo)記方面取得的進(jìn)展外,還出現(xiàn)了新的挑戰(zhàn),包括實(shí)例穩(wěn)定性和可伸縮性。對小數(shù)據(jù)集進(jìn)行操作會不可避免地導(dǎo)致結(jié)果的變化。為了解決這個問題,幾項(xiàng)研究調(diào)查了FS算法的穩(wěn)定性,該算法測量所選特征對數(shù)據(jù)擾動的魯棒性。更好的抗擾動能力將具有更好的結(jié)果一致性,從而提高了重現(xiàn)性。它解釋了為什么一些論文甚至認(rèn)為穩(wěn)定性與準(zhǔn)確性一樣重要。不可否認(rèn),特別是在生物信息學(xué)中,結(jié)果需要在相同情況下的患者之間重復(fù)。每個發(fā)現(xiàn)的生物標(biāo)記都需要是可重復(fù)的和穩(wěn)定的。如果能夠依賴穩(wěn)定的FS方法,這種方法對于特定的數(shù)據(jù)集來說是“最優(yōu)的”,并且能夠檢測出可靠的、可重復(fù)的生物標(biāo)記,那么通過連接組數(shù)據(jù)來檢測無序的大腦變化將有一個根本性的變化。他們的假設(shè)是,對于某個感興趣的數(shù)據(jù)集,針對它的最好的FS方法對于其它不同的數(shù)據(jù)集來說,在分類精度和特征可重復(fù)性方面可能并不是是最佳的。基本上,他們在這項(xiàng)工作中要解決的問題是:給出了一系列不同的特征選擇方法,如何識別最可重復(fù)和最可信的連接特征,從而生成能夠準(zhǔn)確區(qū)分兩種特定情況的可靠生物標(biāo)記? (圖1)
圖1. 用于識別感興趣的數(shù)據(jù)集的最佳特征選擇方法的關(guān)系圖。
a) 給定一個感興趣的數(shù)據(jù)集Di和一個特征選擇方法池,典型的方法是找到一個能夠產(chǎn)生最優(yōu)特征子集S的方法以生成最佳的分類精度A。然而,這忽略了特征可重復(fù)性的問題,這是在生物學(xué)和臨床應(yīng)用中識別可靠的生物標(biāo)記的基礎(chǔ);
b) 研究者提出的一種基于數(shù)據(jù)驅(qū)動的方法用于識別具有最具有可重復(fù)性的特征子集的特征選擇方法
相對于那些專注于提高分類任務(wù)準(zhǔn)確率(或單獨(dú)改善穩(wěn)定性)的FS方法,他們的主要目標(biāo)不是最大化分類器的性能,而是識別那些將會產(chǎn)生具有可重復(fù)性的與特定大腦疾病相關(guān)的大腦特征的最優(yōu)FS方法。為此,研究者提出了FS- select框架,該框架利用multi-graph結(jié)構(gòu)對不同的FS方法之間的關(guān)系進(jìn)行建模,以識別最可靠的FS方法,為感興趣的數(shù)據(jù)集找到最可重復(fù)的特征。特別地,研究者提出了三個圖,分別建模每個FS方法的可重復(fù)性、平均準(zhǔn)確率的相似性和特征穩(wěn)定性之間的關(guān)系,每個FS方法對一些最佳特征進(jìn)行排序(即“特征閾值”K)。最后,通過整合所有可重復(fù)性、準(zhǔn)確率相似度和穩(wěn)定性圖,他們生成了一個整體圖,它可以識別出與圖中其他FS方法相比具有最可重復(fù)性特征的中心FS方法。在最終生成的圖中,連接兩個FS節(jié)點(diǎn)的邊的權(quán)值代表了在精度和穩(wěn)定性上得到平衡的特征在前K個特征的重合率。這允許識別感興趣的數(shù)據(jù)集的“中心”節(jié)點(diǎn)(強(qiáng)度最高的節(jié)點(diǎn)),該節(jié)點(diǎn)將用于識別感興趣的大腦疾病中最有意義和可重復(fù)的連接組特征。這個框架是簡單、直觀的,并首次嘗試解決識別不同神經(jīng)疾病的最可重復(fù)的生物標(biāo)記這一具有挑戰(zhàn)性的問題。它也是通用的,可以應(yīng)用于任何數(shù)據(jù)集,以識別數(shù)據(jù)中的可重復(fù)模式。本文的貢獻(xiàn)如下:1. 通過設(shè)計(jì)一個簡單而有效的基于圖的分析框架,對一組FS方法之間的多方面關(guān)系進(jìn)行建模,為感興趣的數(shù)據(jù)集識別出最可重復(fù)使用的FS方法;2. 他們提出了研究不同F(xiàn)S方法之間關(guān)系的重要性——在為特定數(shù)據(jù)集尋找最佳FS方法時(shí),這方面通常被忽略;3. 將根植于社會科學(xué)領(lǐng)域的中心性概念引入到數(shù)據(jù)驅(qū)動的FS識別問題中;4. 它能夠?yàn)楦信d趣的小型和大型數(shù)據(jù)集識別最可重復(fù)的FS方法,并發(fā)現(xiàn)大腦疾病的連接組生物標(biāo)記。
FS-Select算法框架 FS-to-FS多圖(multi-graph)構(gòu)建 給定一個特定的數(shù)據(jù)集,算法的目標(biāo)是找出最佳的特征選擇方法,提供最可重復(fù)且最可靠的特征,以便區(qū)分兩類(例如,健康和異常的大腦狀態(tài))。研究者假設(shè)最可靠的FS方法能夠再現(xiàn)其他方法識別出的最具鑒別性的特征,從而與其他FS方法達(dá)成最高的一致性。這個方法最吸引人的特點(diǎn)就是,它能夠在一個截止閾值K(K代表用于訓(xùn)練分類器(如支持向量機(jī))的排名前K個特征)上評估一個給定FS方法的重要性,同時(shí)考慮到其他的FS方法。給定一組N個FS方法,研究者構(gòu)造了一個由N個節(jié)點(diǎn)組成的無向全連通圖,其中每個節(jié)點(diǎn)代表一個FS方法,每兩個節(jié)點(diǎn)之間的邊描述了這兩個節(jié)點(diǎn)之間在特定特征(可重復(fù)性、準(zhǔn)確性、相似性或穩(wěn)定性)中的關(guān)系。每個圖都表示為一個相似度矩陣(圖2),最終通過對所構(gòu)建的三個圖的相似度矩陣進(jìn)行平均,得到最終的FS-to-FS相似度矩陣S。FS-to-FS 特征可重復(fù)性矩陣構(gòu)建 給定一組N個FS方法F={FS_1, ..., FS_n},可以構(gòu)造一個圖G_k = (V_k, E_k)。V_k為節(jié)點(diǎn)集,每個節(jié)點(diǎn)代表一個FS方法,E_k為帶有權(quán)重的連邊,表示成對方法之間在前K個特征上的重合度。每個圖G_k表示為一個相似矩陣S_k(圖2)。通過改變閾值K,研究者定義了一組圖G(或稱為multi-graph)來模擬不同閾值條件下FS方法之間在前K個特征上的重合度。接下來,為了合并生成的多圖(multi-graph),研究者將每個G_k表示為一個相似矩陣S_k(圖2),其中每個元素S_k (i, j)表示FS方法i和方法j之間在前K個特征的重合度。最后,研究者通過平均合并在所有閾值K下生成的相似度矩陣后得到一個平均相似度矩陣S_bar。FS-to-FS準(zhǔn)確率相似度矩陣構(gòu)建 由于分類精度將影響所產(chǎn)生的特征的可信度,研究者提出了基于平均分類精度相似度的方法來建模FS方法之間的關(guān)系。研究者定義了一個平均準(zhǔn)確率相似度矩陣A_bar,其中A_bar(i, j) 代表每兩個節(jié)點(diǎn)之間的準(zhǔn)確率相似度。A_bar(i, j) = exp(-|a_i - a_j|/σ_A), 其中a_i表示在不同閾值K下的平均準(zhǔn)確率。在之后的實(shí)驗(yàn)中,σ_A被設(shè)置為10用于數(shù)值范圍的歸一化。FS-to-FS穩(wěn)定性矩陣構(gòu)建 一個性能良好的分類器并且具有較好的全局分類精度是很重要的;然而,在處理生物標(biāo)記時(shí),可重復(fù)性是至關(guān)重要的。分類結(jié)果必須對每個被試都是有效的。一些研究強(qiáng)調(diào)了FS方法的穩(wěn)定性對于特定的FS方法結(jié)果可重復(fù)性的重要性。一種可以更好地識別特征可重復(fù)性的方法是進(jìn)一步利用穩(wěn)定性評分,該評分能夠建模FS方法所選擇的特征的魯棒性。類似于通過平均不同閾值下的multi-graph來構(gòu)建S_bar的過程,研究人員構(gòu)建了矩陣K_bar。K_bar是通過平均在不同閾值下的穩(wěn)定性矩陣得到的。穩(wěn)定性矩陣K_bar中的每個元素K_bar(i, j) 表示方法FS_i與方法FS_j之間的歸一化Kuncheva 穩(wěn)定性得分。最終,F(xiàn)S的相似度矩陣通過對上述方法計(jì)算出來的矩陣進(jìn)行逐元素相乘得到, 即:S=A_bar x S_bar x K_bar。 識別最具有可重復(fù)性的FS方法 在圖論中,可以使用中心性度量來確定圖中節(jié)點(diǎn)的重要性。節(jié)點(diǎn)中心度的概念旨在量化圖中節(jié)點(diǎn)的重要性。有趣的是,在社會網(wǎng)絡(luò)分析領(lǐng)域之外,這個概念還沒有被廣泛探索。節(jié)點(diǎn)中心度是度量圖中節(jié)點(diǎn)相關(guān)性的有力工具。為了解決這一問題,研究者將所謂的圖中心性引入到最可重復(fù)的FS方法的識別過程中。具體來說,算法在估計(jì)的FS鄰接圖矩陣S上使用中心性度量,同時(shí)考慮到FS方法在可重復(fù)性方面的重要性。FS方法在閾值K上可重復(fù)度的定義 研究者將特征選擇方法FS_i在閾值K上的可重復(fù)性定義為與其他的特征選擇方法FS_j在前K個特征上的平均重合率。FS方法平均可重復(fù)率的定義 特征選擇方法的FS_i的平均可重復(fù)度定義為該方法在多個變化的閾值K上計(jì)算得到的多個可重復(fù)度的平均值。研究者使用“平均可重復(fù)率”的定義來量化一個給定的FS方法的可重復(fù)效力。較大的度中心性表示中心節(jié)點(diǎn)與周圍的鄰居節(jié)點(diǎn)緊密相連。在本文中,這表示與其他度節(jié)點(diǎn)享有更大數(shù)量的特征(比如較強(qiáng)的連接)的FS方法具有更強(qiáng)的可重復(fù)效力。這也意味著,在生成的加權(quán)圖中具有最高節(jié)點(diǎn)中心度的節(jié)點(diǎn)代表著最具有可重復(fù)性的FS方法。 因此,為了識別最具有可重復(fù)性的FS方法,算法識別在圖S中具有最高的中心度的節(jié)點(diǎn)v:
其中,d(v_i, v_j) 表示節(jié)點(diǎn)v_i 與節(jié)點(diǎn)v_j之間的最短距離。兩個節(jié)點(diǎn)之間的相似度可以通過計(jì)算兩節(jié)點(diǎn)間的距離的倒數(shù)得到。受圖論分析理論的啟發(fā),研究者將c_i定義為中心性度量,這一度量表示在一給定長度的路徑上訪問FS方法的次數(shù)。具體來說,研究者為S中的每一個節(jié)點(diǎn)FS_i分配一個c_i分?jǐn)?shù),c_i量化了FS_i與其他方法在重復(fù)性、穩(wěn)定性和準(zhǔn)確性等方面的一致性。最終被選擇的FS方法是S中具有最高中心的節(jié)點(diǎn)(同時(shí)也是與其他FS方法連接最緊密的方法)。 識別最具有可重復(fù)性的連接組特征 一旦識別出最可靠的FS方法,算法就使用前K個選擇的特征訓(xùn)練支持向量機(jī)分類器,以發(fā)現(xiàn)最具鑒別性的特征。然后,通過使用circular圖繪制最相關(guān)的連接特征來更深入地研究可重復(fù)性特征,circular圖還顯示了最佳FS方法的名稱及其對該特定數(shù)據(jù)集的平均精度(圖2)。 使用不同的交叉驗(yàn)證策略對FS-Select方法進(jìn)行驗(yàn)證 為了評估FS-Select算法的可重復(fù)性并更好地評估其有效性,研究者使用P折交叉驗(yàn)證(CV)策略訓(xùn)練了一個線性SVM分類器。為了說明FS方法在三個標(biāo)志性特征上的相似性(例如,可重復(fù)性、準(zhǔn)確率和穩(wěn)定性),研究者構(gòu)建了矩陣M_b和矩陣M_w(圖2)。第一個矩陣M_b中的每個元素表示在兩個不同的交叉驗(yàn)證p和p’之間前K個特征的重合率:
其中r^K_p表示第p個交叉驗(yàn)證中FS方法在前k個特征的序列向量。為了生成穩(wěn)定性矩陣M_w,研究者首先識別出在交叉驗(yàn)證策略p和p'之間的前K個特征,然后平均由CV p和p'生成的排序分?jǐn)?shù)w^K_p和w^K_p’,從而生成矩陣M_w(p,p’)。
圖2.提出了用于數(shù)據(jù)特征選擇方法識別的FS-Select算法框架。給定一個特定的數(shù)據(jù)視圖,研究人員定義了多個圖,每個圖都表示為一個相似矩陣,對數(shù)據(jù)特征選擇方法中排名前K位的特征的一致性進(jìn)行建模。
結(jié)果及討論
驗(yàn)證數(shù)據(jù)集
研究人員在小規(guī)模腦連接組數(shù)據(jù)集(晚期輕度認(rèn)知障礙vs阿爾茨海默病)和大規(guī)模數(shù)據(jù)集(包括自閉癥患者vs健康受試者)上評估了FS-Select算法,如下所示。多視圖連接組特征提取 每個被試的腦網(wǎng)絡(luò)由一組包含n_v個網(wǎng)絡(luò)的集合{V_i}(i=1,2, … ,n_v)表征,每一個網(wǎng)絡(luò)編碼了大腦連接組的一個特定視圖。為了訓(xùn)練基于所挑選的FS方法的分類器模型,研究人員為每一個視圖的腦網(wǎng)絡(luò)V_k定義了一個特征向量v_k,特征向量v_k上的每個元素都屬于相應(yīng)的連接矩陣的非對稱上三角部分(圖2)。小數(shù)據(jù)集 為了區(qū)分阿爾茨海默病(AD)患者和晚期輕度認(rèn)知障礙(LMCI)患者,研究人員對來自ADNI data的77名受試者的數(shù)據(jù)(41名AD患者和36名LMCI患者)進(jìn)行了留一交叉驗(yàn)證,每個受試者都有T1w核磁共振影像。他們使用FreeSurfer軟件從每個被試的T1w像中重建其左右大腦皮層。接下來,他們使用Desikan-Killiany 模版將每個半球劃分為35個皮層區(qū)域。從而生成了兩個大腦形態(tài)學(xué)網(wǎng)絡(luò),并得到兩類皮層屬性(視圖):最大主曲率和平均皮質(zhì)厚度。對于每個皮層屬性,研究人員將每兩個ROI之間屬性值的差的絕對值作為形態(tài)學(xué)網(wǎng)絡(luò)中每兩個ROI之間的連邊強(qiáng)度。然后,他們通過提取連接網(wǎng)絡(luò)的非對稱上三角部分作為網(wǎng)絡(luò)的特征向量。大數(shù)據(jù)集 為了驗(yàn)證算法的通用性和可擴(kuò)展性,研究人員在大數(shù)據(jù)集上對FS-Select算法進(jìn)行了評估。該數(shù)據(jù)來自ABIDE數(shù)據(jù)集,包括341名被試,其中155名被診斷為自閉癥譜系障礙(ASD),以及186名正常被試。這個數(shù)據(jù)的多視圖形態(tài)學(xué)腦網(wǎng)絡(luò)和相應(yīng)的特征向量的構(gòu)建方法與上面提到的方法是一樣的。
圖3.特征選擇方法在不同數(shù)據(jù)集上的性能波動。對于每個被試,研究人員定義了一個連接特征向量,每個特征向量來自于特定的大腦視圖。因?yàn)槊總€大腦連接矩陣是對稱的。忽略掉自連接,只對每個矩陣的非對角上三角部分進(jìn)行矢量化特征提取。他們在不同的數(shù)據(jù)集上使用留一交叉驗(yàn)證和七個特征選擇(FS)方法來訓(xùn)練支持向量機(jī)(SVM)分類器,每個數(shù)據(jù)都來自大腦連接的特定表示(或視圖)。右邊的圖展示了視圖一(最大主曲率)中,在不同數(shù)量的選擇特征下7個FS方法的分類準(zhǔn)確率,左圖則表示視圖二(平均皮質(zhì)厚度)中7個FS方法的分類準(zhǔn)確率。他們注意到,不同的FS方法的性能隨數(shù)據(jù)類型的不同而不同。
實(shí)驗(yàn)設(shè)置FS方法和訓(xùn)練
為了構(gòu)建FS方法池,研究人員使用了Matlab提供的Feature Selection Library。他們選擇了7種FS方法:relieff、MutInfFS、laplacian、L0、UDFS、llcFS和cFS,并采用留一交叉驗(yàn)證策略,結(jié)合SVM分類器訓(xùn)練每個FS。對于需要參數(shù)調(diào)優(yōu)的FS方法,他們使用了嵌套的交叉驗(yàn)證策略(relieff, UDFS)。對于每個FS方法,他們評估了SVM分類器在不同數(shù)量的前K個特征上的性能,這些特征的數(shù)量從10到100不等(步長為10個特征)。實(shí)驗(yàn)結(jié)果初步證實(shí)了之前的假設(shè):一種特定的方法在不同的數(shù)據(jù)上性能是不一樣的(如圖三)。接下來,文章將繼續(xù)討論不同F(xiàn)S方法之間的排名差異,并確定能夠產(chǎn)生最具有可重復(fù)性的特征以及總體上令人滿意的準(zhǔn)確性和穩(wěn)定性的方法。 FS-Select性能表現(xiàn)小數(shù)據(jù)集(晚期輕度認(rèn)知障礙vs阿茲海默癥)圖4給出了加權(quán)FS相似矩陣及其對應(yīng)的圖,以及FS- select識別的可重復(fù)特征。該圖證實(shí)了之前的假設(shè),即一種數(shù)據(jù)類型的最優(yōu)的FS方法對另一種數(shù)據(jù)類型可能不是最優(yōu)的。如view1 LH連接組數(shù)據(jù)上最優(yōu)的FS方法為relieff,它的分類準(zhǔn)確率為61.03%;view2 LH連接組數(shù)據(jù)的最優(yōu)FS方法為L0,它的分類準(zhǔn)確率為70.3%,如圖4所示。
圖4. FS-Select算法在小數(shù)據(jù)集(AD vs LCMI)上的表現(xiàn)。
此外,研究者還注意到兩個半球之間的準(zhǔn)確率有顯著差異(≈70% vs ≈40%)。最具有判別能力的形態(tài)學(xué)特征包括這些形態(tài)學(xué)連接:(i)[頂葉皮層?腦島皮層]和(ii)[尾前扣帶皮層?胼胝體]。ROI(尾額中回?胼胝體)和[胼胝體?楔片皮層(5)]經(jīng)常被選中。顳上溝(1)、前扣帶皮層(2)和島葉皮層(35)也被認(rèn)為是形態(tài)學(xué)網(wǎng)絡(luò)樞紐(hub)。大數(shù)據(jù)集(自閉癥譜系障礙vs正常被試)圖5展示了算法在大數(shù)據(jù)集上的結(jié)果。首先,注意到算法所選的四種FS方法是不同的(laplacian、relieff、cfs、mutinffs),因此算法似乎不依賴于大腦網(wǎng)絡(luò)連接視圖。同樣,沒有注意到在跨視圖的準(zhǔn)確性上有顯著的差異(對于所有視圖≈52%)。當(dāng)觀察這個數(shù)據(jù)集中最具有可重復(fù)性的特征時(shí),形態(tài)學(xué)連接[頂葉皮層(29)?腦島皮層(35)]總是被發(fā)現(xiàn);[尾前扣帶皮層(2)?胼胝體(4)]和[顳上回后坡(1)?內(nèi)嗅皮層(6)]作為相關(guān)特性出現(xiàn)。同時(shí)研究人員還注意到,為ASD識別的最具鑒別性的特征不同于為AD數(shù)據(jù)集識別的特征??偟膩碚f,這可能表明FS-Select能夠?yàn)樘囟ǖ臄?shù)據(jù)集選擇與其相關(guān)的連接特征。
圖5.FS-Select在大數(shù)據(jù)集(ASD vs NC)上的表現(xiàn)。
使用多種交叉驗(yàn)證策略評估FS-Select方法 FS- select從給定的FS池中識別出最佳的FS方法,并能夠找出在感興趣的生物醫(yī)學(xué)數(shù)據(jù)集中分離兩個類的最具有可重復(fù)性和最具鑒別性的特性。然而,目前在生物醫(yī)學(xué)數(shù)據(jù)分析領(lǐng)域,對于如何評估基于機(jī)器學(xué)習(xí)的特征的可重復(fù)性還沒有達(dá)成共識。作為一個潛在的評估標(biāo)準(zhǔn),研究者利用不同的交叉驗(yàn)證策略來證明特征的可重復(fù)性,以應(yīng)對訓(xùn)練集的不同擾動。特別地,他們使用三種CV策略來應(yīng)用FS-Select: 留一交叉驗(yàn)證、五折交叉驗(yàn)證和十折交叉驗(yàn)證。根據(jù)圖6和圖7所示的結(jié)果,他們的目標(biāo)是突出FS-Select的兩個關(guān)鍵方面: 1. 穩(wěn)定性對結(jié)果的影響(即,選擇的FS方法和識別的連接特征); 2.通過探索在不同的交叉驗(yàn)證情況下識別出來的特征的重疊率確定其可重復(fù)性。識別出最具有可重復(fù)性的腦形態(tài)學(xué)連接來區(qū)分阿茲海默癥(AD)與晚期輕度認(rèn)知障礙(LMCI)。FS-Select識別出cfs是最重要的方法,因?yàn)樵谒袑?shí)驗(yàn)中cfs被選中的次數(shù)達(dá)到50%。如圖6所示,circular圖顯示了區(qū)分AD和LMCI之間最具有可重復(fù)性和最具有判別力的形態(tài)學(xué)連接。在三種交叉驗(yàn)證策略中出現(xiàn)最多的形態(tài)學(xué)連接特征包括:(尾前扣帶皮層(2)?胼胝體(4))和[頂葉皮層(29)?腦島皮層(35)],這些發(fā)現(xiàn)與之前發(fā)現(xiàn)的具有一定的相似性。從圖7所示的交叉驗(yàn)證相似度矩陣中,可以注意到留一交叉驗(yàn)證與十折交叉驗(yàn)證策略在十個最具有判別性的特征的方面有最高的重疊率(100%)。識別出自閉癥譜系障礙(ASD)和正常被試(NC)腦狀態(tài)之間最具有可重復(fù)性的腦形態(tài)學(xué)連接。在這個數(shù)據(jù)集上,cfs方法只被選中一次,relieff和laplacian經(jīng)常被選中。圖6顯示(頂葉皮層(29)?腦島(35)]在不同的交叉驗(yàn)證策略中是具有可重復(fù)性的連接特征。在考慮穩(wěn)定性時(shí),連接顳上回后坡(1)與內(nèi)嗅皮層(6)以及尾側(cè)額中回(3)的連接被認(rèn)為是最具判別性的。當(dāng)不考慮穩(wěn)定性來產(chǎn)生最終的S矩陣時(shí),可以觀察到區(qū)域1(顳上回后坡)不常被選擇。相反,第2區(qū)(尾側(cè)前扣帶皮層)出現(xiàn)的頻率更高。如果不考慮穩(wěn)定性,并且只選擇一次更多的節(jié)點(diǎn),并且圖看起來不那么相似,則會重現(xiàn)相同的模式。考慮進(jìn)穩(wěn)定性將傾向于增加在多個交叉驗(yàn)證策略中所選擇的特征的數(shù)量。總的來說,所顯示的circular圖看起來更相似,它們有更多重要的共同特征。從交叉驗(yàn)證相似矩陣來看(圖6),他們可以得出結(jié)論, 由十折交叉驗(yàn)證以及留一交叉驗(yàn)證識別出來的最具有可判別性的形態(tài)學(xué)連接是最具有可重復(fù)性的,這是因?yàn)榱粢唤徊骝?yàn)證與十折交叉驗(yàn)證在所有成對的交叉驗(yàn)證中顯示出了最高的重合度。
圖6. 在AD vs LMCI數(shù)據(jù)集上,不同的CV方法得到的可重復(fù)性特征以及CV-CV相似度矩陣。
圖7. 在ASD vs NC數(shù)據(jù)集上,不同的CV方法得到的可重復(fù)性特征以及CV-CV相似度矩陣。
FS-Select的臨床發(fā)現(xiàn) 表2展示了為每個數(shù)據(jù)集和每個大腦視圖所識別出來的的兩個最具判別性和可重復(fù)性的形態(tài)學(xué)連接。圖4-6展示出,無論輸入數(shù)據(jù)集和視圖是什么,有一個連接特性一直被選擇:[頂葉皮層(29)?腦島皮層(35)]。在以前的研究中,這兩個皮層區(qū)域都在AD和ASD中被報(bào)告過。對于AD vs LMCI數(shù)據(jù)集,可以得出這樣的結(jié)論:連接特征(尾前扣帶皮層(2)?胼胝體(4)]和[尾前扣帶皮層(2)?內(nèi)嗅皮層(6)]被確定是最具有可判別性的和可重復(fù)性的。與尾前扣帶皮層相對應(yīng)的皮質(zhì)區(qū)域2被發(fā)現(xiàn)是一個重要的中樞(hub)區(qū)域,這個發(fā)現(xiàn)與之前關(guān)于AD的研究是一致的。對于ASD vs NC數(shù)據(jù)集,連接特征包括(尾前扣帶皮層(2)?尾額中回(3)]和[(顳上回后坡1)?內(nèi)嗅皮層(6)]被發(fā)現(xiàn)是最具有可重復(fù)性和判別性的。這些形態(tài)學(xué)連接涉及到之前關(guān)于自閉癥譜系障礙的研究中所提到的皮層區(qū)域。這些區(qū)域可能是重要的生物標(biāo)記,可能有助于診斷和治療這兩種神經(jīng)系統(tǒng)疾病。表2. 在不同的交叉驗(yàn)證策略中被選中的FS方法識別出來的最具有可重復(fù)性和判別性的連接特征。
FS-Select方法的性能和限制 FS-Select實(shí)現(xiàn)了他們的首要目標(biāo),即識別最具有可重復(fù)性和最具判別性的連接特征,用于檢測感興趣的神經(jīng)大腦疾病,并具有良好的分類準(zhǔn)確性。通過采用三種不同的交叉驗(yàn)證策略,他們證明了FS-Select在訓(xùn)練集不同擾動下的特征可重復(fù)的效力。FS-Select使用至少2個不同的交叉驗(yàn)證策略選擇合適的腦連接生物標(biāo)記。FS-Select揭示了對所有不同交叉驗(yàn)證策略(包括顳上溝、尾前扣帶皮層和楔葉皮層)反復(fù)確認(rèn)的具有判別性的特定大腦區(qū)域的重要性。這可能表明,在研究晚期癡呆對大腦形態(tài)的影響時(shí),應(yīng)該首先考慮這些標(biāo)志性區(qū)域。雖然FS-Select有許多吸引人的方面,但它有一些限制,研究人員打算在未來的工作中解決:1. 在7個FS方法中,只有5個被定期選為最適合評估數(shù)據(jù)集的方法。udf和llcFS從未被選中。在這項(xiàng)工作中,他們只在兩個不同的數(shù)據(jù)集上測試了框架。需要對不同數(shù)據(jù)集上的FS- select進(jìn)行評估,以可靠地評估使用的FS方法的潛力;2. 在研究最具有可重復(fù)性的連接特征時(shí),只選擇了前10個特征。根據(jù)病情的嚴(yán)重程度和所處的階段,神經(jīng)障礙疾病可能會改變不同數(shù)量的大腦連接,因此可以探索更多的特征;3. 每個FS方法輸出一個特征的排序和權(quán)重向量。到目前為止,他們只考慮了選擇最具鑒別性和可重復(fù)性的特征的等級。還可以將特征權(quán)重集成到可重復(fù)性圖的估計(jì)中;4. 識別最可重復(fù)的FS方法的計(jì)算時(shí)間取決于所使用的FS方法的時(shí)間復(fù)雜度和數(shù)據(jù)大小。這可以通過并行計(jì)算來解決,不同的FS方法可以同時(shí)訓(xùn)練,因此時(shí)間復(fù)雜度不是一個大問題。此外,目前最先進(jìn)的FS方法具有相當(dāng)合理的時(shí)間復(fù)雜度。總的來說,最終選擇的FS方法的計(jì)算代價(jià)并不高,但在生物數(shù)據(jù)模式識別任務(wù)中,如發(fā)現(xiàn)存在有效治療神經(jīng)系統(tǒng)疾病的生物標(biāo)記,可重復(fù)性可以抵消掉計(jì)算所花費(fèi)的時(shí)間。本文并不關(guān)注所使用的FS方法的時(shí)間復(fù)雜度,而是關(guān)注每個FS方法在選擇最具有可重復(fù)性特征時(shí)的可重復(fù)效力。 未來工作與改進(jìn) 有幾個未來的方向可以探索,以進(jìn)一步提高這項(xiàng)開創(chuàng)性工作。 首先,可以用一種更通用的方法來學(xué)習(xí)這些關(guān)聯(lián),而不是預(yù)先定義一個相似矩陣來根據(jù)頂級特征一致性來建模FS方法之間的關(guān)系。 其次,可以在多個連接組數(shù)據(jù)集上對FS-Select進(jìn)行評估,包括功能連接和結(jié)構(gòu)連接。 第三,在理想的情況下,具有最佳分類精度的FS方法將識別最具判別性和可重復(fù)性的特征。他們的目標(biāo)是進(jìn)一步改進(jìn)FS-Select框架,以識別滿足這兩個標(biāo)準(zhǔn)的特定于數(shù)據(jù)的FS方法。 第四,在本研究中,本文只關(guān)注于使用FS-Select來演示感興趣的數(shù)據(jù)集中的特征可重復(fù)性。在未來的工作中,他們將調(diào)查這個方法在不同醫(yī)療中心獲得的特定疾病的獨(dú)立數(shù)據(jù)集的可重復(fù)性潛力。 第五,如何評估給定特征選擇方法的可重復(fù)性是一個開放的研究領(lǐng)域,需要開發(fā)更先進(jìn)的數(shù)學(xué)工具來進(jìn)行準(zhǔn)確和全面的評估和比較。
總結(jié)
雖然大多數(shù)特征選擇方法側(cè)重于提高預(yù)測精度,但在本文中,研究者解決了為感興趣的數(shù)據(jù)集選擇最佳FS方法以提高特征可重復(fù)性的問題。特別地,本文介紹了FS-Select,一種能夠識別最佳特征選擇方法的方法,以發(fā)現(xiàn)區(qū)分兩組(例如,健康的和紊亂的大腦)數(shù)據(jù)的最可重復(fù)和最可靠的特征子集。利用小尺度和大尺度的多視圖腦連接數(shù)據(jù)集,他們用不同的交叉驗(yàn)證策略證明了FS- Select選擇的FS方法的可重復(fù)性。還發(fā)現(xiàn)了不同的可重復(fù)的連接特征,可以對自閉癥患者和癡呆患者的大腦形態(tài)進(jìn)行“指紋識別”。由于這是為特定數(shù)據(jù)集尋找最可重復(fù)的FS方法的第一次嘗試,他們只研究了多重圖中編碼的不同F(xiàn)S方法之間的兩兩關(guān)系。在未來的工作中,他們將使用超圖學(xué)習(xí)技術(shù)來研究不同F(xiàn)S方法之間的高階關(guān)系,在這里將學(xué)習(xí)如何對FS方法子集之間的關(guān)系建模,以增強(qiáng)區(qū)別性數(shù)據(jù)驅(qū)動模式的可重復(fù)性。盡管證明關(guān)于簡單程序行為的數(shù)學(xué)命題似乎非常困難,但是提供FS-select這個方法正確性的證明將為選擇甚至設(shè)計(jì)更嚴(yán)格且可重復(fù)的FS方法打下基礎(chǔ),也可以進(jìn)一步研究替代的FS方法。
原文:Identifying the best data-driven feature selection method for boosting reproducibility in classification tasks
微信掃碼或者長按選擇識別關(guān)注思影
第六屆任務(wù)態(tài)fMRI專題班(重慶4.8-13)
第二十八屆磁共振腦影像基礎(chǔ)班(重慶2.24-29)
第十四屆磁共振腦網(wǎng)絡(luò)數(shù)據(jù)處理班(重慶3.18-23)
第二十屆腦電數(shù)據(jù)處理中級班(重慶3.7-12)
第二十九屆磁共振腦影像基礎(chǔ)班(南京3.15-20)第八屆腦電數(shù)據(jù)處理入門班(南京3.9-14)
第七屆近紅外腦功能數(shù)據(jù)處理班(上海4.2-7)
思影數(shù)據(jù)處理業(yè)務(wù)一:功能磁共振(fMRI)
思影數(shù)據(jù)處理業(yè)務(wù)二:結(jié)構(gòu)磁共振成像(sMRI)與DTI