人類近期的適應
現代人類大約在20萬年前出現于非洲,然后在8萬年前到5萬年前迅速遷移到世界各地。因此,這就要求我們的祖先要面臨各種各樣新的選擇壓力,如:適應其他地區相較于非洲的“寒冷溫度”,新的飲食習慣和高原地區的缺氧適應等等。識別人類適應這些選擇壓力的遺傳性狀是非常重要的。
全基因組單核苷酸多態性的方法(SNP)和來自全球人類全基因組測序的數據(WGS)可以識別新的候選適應性基因和基因介導的途徑,用于研究全球不同人群的適應能力。識別候選適應性基因最大的困難是:產生基因組突變的進化過程在基因座之間是可變的,而且基因組在進化過程中的變異位點不一定會參與蛋白質的編碼,這些位點可以位于編碼基因之間的區域,這些區域可以調控編碼基因的表達,有的變異位點甚至在受它們調控的基因的數千個堿基對之外。
這篇綜述,描述了全基因組中性位點檢測的現狀,基因組中含有最強適應性性狀的區域,以及研究這些候選適應性位點上變異的功能序列的整合方法。特別是,強調了最近確定的候選適應基因和基因介導的途徑的例子,其中一些已經在地理上不同的人群中進行了研究。此外,還討論了利用表型、基因調控和功能數據解釋全基因組適應性清掃的結果,以及該研究領域面臨的一些挑戰。
一、數據的獲取
在過去幾十年的研究中,從來自全球人類的全基因組數據里采集了幾組常見的SNPs,這些SNPs里揭示了人類的一部分適應性性狀。SSNP陣列因為其價格便宜成為全球最大的數據集,但是大多數功能變異沒有被這些陣列捕獲,因為等位基因頻率和連鎖不平衡(LD)模式都受到確認偏差的影響。因此,大多數關于正選擇的遺傳性狀的研究都集中在由常見SNP標記或代表的候選基因或基因組區域上。
來自全球人口的WGS數據可以消除識別變異性狀的過程中所帶來的偏差,以及直接捕獲罕見的功能性變異。
二、變異的識別方法
在全基因組數據中識別正選擇性狀的最常見方法是使用對適應性遺傳性狀敏感的統計檢驗,識別 “異常的” 突變。為此策略開發的統計方法主要用于識別經典的選擇性清掃(我對經典的選擇性清掃的理解是:當選擇壓力存在并確定時,在此選擇壓力下,一個新的有利突變在種群中的頻率會迅速上升,然后接近一個固定值),具體操作如下:
操作一:基于等位基因頻率的中性檢驗
操作二:基于異常的LD模式的檢驗
操作三:基于種群結構(由種群里等位基因頻率的差異來衡量)的檢驗
操作四:擴展遠距單倍型,以區分趨同進化和單一適應性突變的起點,它對單一適應性突變很敏感。
但是這些方法都存在一些不足之處,這是因為人類的全基因組數據是分階段獲取的,再加上不同的估算方法會使最后的結果產生偏差。
另外,在近代人類快速遷移出非洲之前,很多突變就已經存在人類的基因組里了,而從常態突變中進行的選擇會留下比經典清掃更難檢測的選擇性狀。當適應性性狀受多個基因座影響時,此類信號甚至更難以檢測。新的統計方法可以利用WGS數據中等位基因頻率和單倍型模式的多樣性捕捉原本是中性的突變,因為人群結構對常態突變特別敏感。
傳統的離散型統計一次評估一個突變,而現在的研究也在關注由多基因確定的性狀以及與特定表型相關的基因介導的途徑,因為生物體的表型會影響其自身的繁衍。生物途徑的注釋是一個復雜的問題,這需要更好的注釋基因的功能和更強大的統計方法。
三、結合人口統計學
理論上來說,使用全基因組數據研究適應性可以用全基因組的變異模式來模擬人類種群結構的形成過程,還可以研究非編碼區的變異,以尋找候選適應性突變。但是缺乏真實的人口統計學模型來預測中性突變的模式會有很高的概率產生假陽性的結果。研究不同的適應性性狀也需要結合在不同地域生活的人群。
四、容易實現的目標
早期的全基因組研究發現人類一些具有重要影響的基因中,有幾個強大的適應性性狀,說明了基因突變與表型變異之間,以及表型變異與生殖能力之間存在明確的關系,表明基因在適應過程中的作用。例如,隨著人類飲食結構的改變,以及畜牧業的發展,歐洲人相較于非洲人代謝乳糖的能力要強得多。容易實現的目標包括:與生殖能力有關的表型以及少數的遺傳變異(每個變異對群體的遺傳結構都有很大影響)。
五、復雜性狀
具有復雜遺傳結構的性狀以及對個體生存、繁衍影響不明顯的性狀很難用離散型統計法去研究。對于這些性狀的研究,常用的方法是將全基因組SNP數據與表型數據相結合去定位變異基因的位置。但是與表型相關的SNPs在一個人群中被發現時,將這些結果應用于其他人群時要謹慎,因為LD的模式可能不同,性狀的遺傳結構也可能不同。
六、從不同人群中的到的啟示
盡管研究不同的人群是一個很大的挑戰,但是對于在相似環境中生活的不同人群,適應性的生理途徑還是會有區別。例如,生活在高原地區的人,他們的低氧誘導因子1作用的途徑會縮短,這是趨同適應,但是不同的人群,途徑具體的縮短方式存在差異
開發新的方法來檢測多基因適應以及正向選擇的常態突變對于研究趨同適應非常重要。此外,適應性的信號在種群內部的不同群體以及種群之間存在的頻率不同,若確定各種群之間的親緣關系,追溯并確定祖先種群,可以確定種群在分裂后產生的適應性性狀。
由于對局部環境的適應,原本只在特定人群中出現的適應性性狀也有著可能出現在其他的人群中,因此將不同的人群納入基因組的研究非常重要,這或許可以闡明基因型與表型之間的關系。
七、表型和功能數據的使用
重現人類適應性的生物學信號,可以采用下述的方法:將全基因組清掃獲得的正向選擇與基因型-表型關聯研究,或將體內、體外的基因組調控數據和功能數據相結合,可以改進對候選適應性基因的識別。但是在不確定過去的選擇壓力或直接證明表型對種群的生殖影響之前,不應排除一個基因座具有適應性的可能。
八、數據集的整合
將適應性的全基因組清掃與特定適應性假設相關的表型數據相結合(候選適應性基因 表型)有一個潛在的限制:許多生活與適應性假設相關的、生活在不同環境條件下的人群很難被納入研究,這需要研究具有足夠的樣本量。上述生活在高原地區的人群,以不同的生理途徑適應低氧的環境就是一個很好的例子。
很多研究都在將候選適應性區域與基因組調控的變異整合到一起,使用全基因組數量性狀位點的表達調控來驗證驗證一個假說:與基因表達有關的遺傳變異在人類近期的適應中是否起著重要作用。整合局部候選適應性的基因座與推測基因調控途徑的變異改進了一次只研究一個基因座的方法,現在可以將一組基因與另一組表達量協同上調或協同下調的基因一起納入研究。
事實上,基因調控途徑的變異很多還不清楚,在研究這些變異的功能前,弄清楚它們對表型和種群延續的影響非常重要。
九、后續的功能研究
體外實驗:將候選適應性基因導入由干細胞誘導產生的不同類型的細胞
體內試驗:將基因導如小鼠體內,觀察與野生型小鼠相比,轉基因小鼠的變化
與人體相比,這些候選適應性基因在體外實驗和體內模型體系中的表現可能會有不同,特別是限定變異的影響于特定的組織和/或發育時間
十、整合基因組學