20 年前由人類基因組計劃(Human Genome Project)與塞雷拉基因組公司(Celera Corporation)定序完成的人類基因組序列其實並不完整。受限於技術,當時科學家無法確認一些 DNA 片段彼此順序及關係,特別是帶有許多重複序列的片段,因此約有 15% 的序列在當時並沒有定序。這些年來科學家陸續解開某些片段,但是科學家從 2013 年開始參考使用的人類基因序列版本也仍缺少 8% 序列。
包含全球 30 所研究單位的研究者共同合作的 Telomere-to-Telomere(T2T)Consortium 計畫,將過去基因序列缺漏的部分補上了。聖塔克魯茲加利福尼亞大學(University of California Santa Cruz)基因體學家 Karen Miga 與同事們在 5 月 27 日發表的一篇預印論文公布定序成果,人類基因體序列終於完整呈現。DNA 鹼基數從 29.2 億增加至 30.5 億,增加 4.5%。研究團隊更在過去缺漏的序列發現約 115 個能夠表現蛋白質的新基因,使目前已知基因總數達 19,969 個。
歐洲分子生物學實驗室(European Molecular Biology Laboratory,EMBL)副主任 Ewan Birney 表示,過去的基因組定序研究不是將 DNA 分子從頭到尾一一定序,也因此有所限制,但現在這項研究成果顯示科學家已經能夠做到將 DNA 分子序列完整定序,對未來研究也有重要影響。
美國國家生物技術資訊中心(National Center for Biotechnology Information)生物資訊學家 Kim Pruitt 認為這項研究是一個重要的里程碑,並且對於這些新資訊將能對許多難解的問題提供重要的線索,並幫助科學家們找到答案。
這次新定序出的基因組片段被稱為 T2T-CHM13,為 2013 年後使用的人類基因組序列資料增加將近 2 億個序列。
研究團隊所使用的 DNA 樣本並非來自某個個體,而是來自稱為完全性葡萄胎(hydatidiform mole)的組織分離出的細胞株,是由精子與沒有細胞核的卵子結合形成無法發育的異常受精卵而來。由於這種組織內的細胞只有父親染色體,因此研究者不需區分兩組來自不同人的兩套染色體。
Miga 表示,團隊之所以能夠成功定序先前遺漏的基因序列一大部分也是仰賴新的定序技術所賜。美國加州太平洋生物科學公司(Pacific Biosciences)所提供的定序技術,利用雷射掃描一次性地對細胞中分離出的 DNA 序列進行快速且大量的定序分析。相較之下,傳統的定序技術一次只能定序幾百個鹼基對,因此需要分段定序,再由研究者將定序資料像拼拼圖一樣重新排序組合起來。新技術能夠一次進行長片段的定序,各個片段序列之間有了更多的重疊部分,也讓研究者更容易整合序列資料。
雖然人類基因體全序列已經定序完成,但這並不代表 T2T-CHM13 就是人類基因體全序列拼圖的最後一塊,參與 Telomere-to-Telomere(T2T)計畫的科學家研究在染色體上某些片段序列碰到一些問題,過去定序完成的序列估計約 0.3% 有誤,因此仍需要仰賴後續研究一一解開。
T2T-CHM13 解出的序列只能代表一個人的基因組,但 T2T Consortium 已與 Human Pangenome Reference Consortium(HPRC)合作,希望在未來三年內收集超過 300 位世界各地人們多樣化的樣本進行基因組定序。Miga 表示接下來的研究能以他們的序列資料為參考,進一步了解基因組哪些位置的序列會因人而異。Miga 團隊已對 Y 染色體序列定序,而未來他們更能進一步用同樣的方式定序包含父母雙方染色體的基因組,挖掘過去不了解的部分。
Miga 表示,有了更多更新的基因序列資料補足過去缺少的資訊,遺傳學家就能快速找到新解出的序列有哪些基因可能與疾病發生有關。過去人類基因組定序結果出來時,科學家還沒有足夠的技術與資源立刻深入研究,但隨著資源與技術的進步與更新,現在的科學家應能快速掌握新定序序列中基因的功能及資訊。
Miga 希望未來人類基因組序列能夠越來越完善,包含更多新解出的片段,而不是只有過去容易解開的部分。現在已有完整基因組序列參考,並找到突破障礙的新技術,因此這項工作應能越來越順利。她也表示期望未來基因組定序成為常態性,讓資訊不斷擴充更新也更完善。