電話:
021-67610176傳真:
導讀 | 早在2000年,人類基因組序列草圖還在制作中時,遺傳學家們就開始對人類基因數目進行估算。近20年后,擁有真實數據的他們仍然無法就這一數量達成一致,這一知識差距阻礙了他們在發現與突變相關疾病上的努力。直至近,科學家們又發布了新數據:他們認為人類共有超過2.1萬個蛋白質編碼基因。 |
gnosticwarrior
新結果使用了數百份人體組織樣本的數據,并于5月29日發布在BioRxiv預印本服務器上。它包含了近5000個以前未被發現的基因,其中近1200個攜帶了制造蛋白質的指令(carry instructions for making proteins)。總的來說,與先前估計的約2萬個蛋白質編碼基因數目相比,本次統計有所上升,總數為超過2.1萬個。
DOI
然而,許多遺傳學家并不確信,所有新提出的基因都將經得起嚴密的審查。他們的批評也凸顯了識別并定義新基因的難度之大。
領導本次基因數目統計的生物學家Steven Salzberg說:“人們在這方面已經努力了20年,但我們仍然沒有答案。”
終答案?
2000年,隨著基因組學界對人類基因數量的爭論, Ewan Birney(目前為英國Hinxton歐洲生物信息學研究所[EBI]所長)發起了基因競賽。他在每年一度的遺傳學會議上于一個酒吧里進行了次tou注,這次比賽終吸引了1000多名參賽者和3000美元的獎金。對基因數量的押注從超過312,000個到略低于26,000個不等,平均約為40,000個。之后,估計的范圍在縮小,大致范圍在19000到22000之間,但仍然存在分歧。
Source: M. Pertea & S. L. Salzberg
基因計數可以根據被分析的數據、使用的工具和剔除假陽性的標準而變化。新的統計使用了更大的數據集和不同于先前的計算方法,以及更廣泛的基因定義標準。
Salzberg的研究小組使用了來自基因型組織表達( GTEx )項目的數據,該項目對數百具人體的30多個不同組織的RNA進行了測序(RNA是DNA和蛋白質之間的中介)。為了鑒定編碼蛋白質的基因和那些在細胞中不編碼但仍起重要作用的基因,他們組裝了GTEx的9000億個微小RNA片段,并將其與人類基因組對齊。
然而,僅僅因為一段DNA表達為RNA,并不一定意味著它就是一個基因。所以這個小組試圖用各種標準濾除噪音。例如,他們將研究結果與其他物種的基因組進行了比較,認為遠親生物共享的序列很可能由于進化而得以保留(因為它們具有功能性),而且很可能是基因。
終,研究小組留下了21,306個蛋白質編碼基因和21,856個非編碼基因,遠遠超過兩個廣泛使用的人類基因數據庫(由EBI維護的GENCODE基因組包括19,901個蛋白質編碼基因和15,779個非編碼基因以及由美國國家生物技術信息中心管理的數據庫RefSeq列出的20,203個蛋白質編碼基因和17,871個非編碼基因)。
前RefSeq負責人Kim Pruitt認為,造成這種差異的原因一部分是由于Salzberg團隊分析的大數據量;另外一個主要的區別是,GENCODE和RefSeq都依賴人工處理——人為查看每個基因的證據并做出終決定,而Salzberg的小組則*依靠計算機程序來篩選數據。
“如果人們喜歡我們的基因列表,那么也許幾年后我們將成為人類基因的仲裁者。” Salzberg說。
Illustrated by Jeremy Dimmock. via Pacific Standard
何為基因的定義標準?
需要指出的是,許多科學家仍堅稱,他們需要更多的證據才能確信這份清單的準確性。協調GENCODE人工注釋的EBI計算生物學家Adam Frankish說,他和他的團隊已經掃描了Salzberg團隊鑒定的大約100個蛋白質編碼基因。據他們評估,其中只有一個似乎是真正的蛋白質編碼基因。
Pruitt的團隊成員研究了Salzberg小組的十幾個新的蛋白質編碼基因,但沒有發現任何符合RefSeq標準的基因。有些與基因組中似乎屬于侵入我們祖先基因組的逆轉錄病毒的區域重疊;另一些屬于其他重復性延伸(repetitive stretches),很少被翻譯成蛋白質。
但是Salzberg認為一些重復序列可以被認為是基因。ERV3–1就是一個例子,它出現在RefSeq中,并編碼在結直腸癌中過表達的蛋白質。同時Salzberg也承認,他團隊名單上的新基因將需要他們自己和其他人的驗證。”
令人困惑的是基因定義的變化和不。生物學家過去認為基因是編碼蛋白質的序列,但后來發現一些非編碼RNA分子在細胞中有重要作用。這一基因判定的標準爭議也解釋了Salzberg計數和其他計數之間的一些差異。
重要意義
準確統計所有人類基因對于揭示基因與疾病之間的非常重要。Salzberg指出,不計其數的基因經常被忽視,即使它們含有致病突變。但是倉促地將基因添加到主列表中也會帶來風險。一個錯誤的基因將會轉移遺傳學家對真正問題的注意力。
Pruitt補充道:“生物學是復雜的。數據庫與庫之間的基因數量不一致對研究人員來說仍然是個問題,人們還在尋求一個終的答案。”
New human gene tally reignites debate