新聞資訊

國內(nèi)外牛人評說新一代測序技術(shù)

論測序,華大基因算是國內(nèi)至Top的研究院,裝備精良,人才濟(jì)濟(jì)。2008年底,頭個(gè)亞洲人基因組出爐。這一研究成果公布在權(quán)威期刊《Nature》雜志上,文章的通訊作者和**作者正是來自深圳華大基因研究院的王俊博士。在這篇文章中,研究人員利用新一代測序儀Illumina Genome Analyzer完成了人基因組的測序,測序量達(dá)到36倍覆蓋率,并且研究人員還比對了NCBI人類相關(guān)基因組,短讀取序列達(dá)到99.97%覆蓋率。

記者:**個(gè)黃種人基因組圖譜的公布是我們的驕傲,相比較于水稻、家蠶、家雞、家豬等動(dòng)植物基因組圖譜,這個(gè)基因組圖譜的完成是否更困難一些?還是更容易一些,在這個(gè)基因組測定過程中是否遇到了一些技術(shù)困難?具體有哪些?

王俊博士:相較于水稻、家蠶、家雞、家豬等動(dòng)植物基因組圖譜而言,**個(gè)黃種人基因組圖譜的總體工作相對更加困難一些。我們在測定**個(gè)黃種人的時(shí)候采用了新一代測序儀 Illumina Genome Analyzer,雖然測序價(jià)格更便宜,測序速度更快,卻給數(shù)據(jù)的存儲、處理、分析、展示帶來了巨大的挑戰(zhàn),尤其是面臨了現(xiàn)有的生物分析軟件無法解決的問題,例如測序數(shù)據(jù)量較大增長了序列比對的時(shí)間,測序序列平均讀長較短導(dǎo)致序列很難**定位,而針對這些困難我們獨(dú)立自主研發(fā)的軟件(SOAP、SOAPsnp)是我們完成這個(gè)項(xiàng)目時(shí)值得驕傲的地方之一。

記者:在基因組測定過程中主要采用的技術(shù)點(diǎn)有哪些?您認(rèn)為關(guān)鍵的一項(xiàng)技術(shù)是什么?

王俊博士:在基因組測定過程中主要的技術(shù)點(diǎn)是基因組測序和生物信息分析。我認(rèn)為關(guān)鍵的技術(shù)是生物信息分析,因?yàn)殡S著新一代測序技術(shù)的廣泛使用,測序的成本大大降低,測序速度有所提高,而測序過程也變得相對簡單容易,但是測序產(chǎn)生的大量數(shù)據(jù)卻給后期的生物信息分析帶來了巨大的壓力,因此我認(rèn)為生物信息分析是在基因組測定過程中關(guān)鍵的一項(xiàng)技術(shù)。

世界**研究院Wellcome Trust Sanger研究院至少擁有37臺Illumina的Genome Analyzer,5臺ABI SOLiD和2臺454 GS FLX。但是他們也沒有完全拋棄毛細(xì)管方法,目前仍有50臺ABI 3730,用于斑馬魚和豬的基因組計(jì)劃。光是看這個(gè)數(shù)據(jù),就已經(jīng)讓人咂舌了。當(dāng)然,從下面的訪談中你也可以看出,**的基因組中心和一般的實(shí)驗(yàn)室還真是不一樣,他們資金雄厚,站得高,看得遠(yuǎn)。因此他們的選購標(biāo)準(zhǔn)不適合普通實(shí)驗(yàn)室,僅作了解。

Q:你們選擇新平臺的標(biāo)準(zhǔn)是什么?

A:我們一定要站在前沿,無論代價(jià)是什么,我們都會(huì)做。我們經(jīng)常測試新儀器和現(xiàn)有儀器的新版本。我們要看到這項(xiàng)技術(shù)確實(shí)能產(chǎn)生合理量的準(zhǔn)確序列,才會(huì)進(jìn)行購買。但同時(shí),我們還有開發(fā)資源的任務(wù),因此我們對檢驗(yàn)新技術(shù)很有興趣,并且我們還能驗(yàn)證現(xiàn)有技術(shù),它們對于其他實(shí)驗(yàn)室或許還不夠成熟。因?yàn)槲覀兿M驹跍y序的前沿,我們就要比小實(shí)驗(yàn)室跑得更快,它們的經(jīng)費(fèi)可能只夠買一臺儀器。同時(shí),我們有義務(wù)與他人分享我們的經(jīng)驗(yàn)。

Q:你們有著何種數(shù)據(jù)儲存與分析硬件來支持測序儀?

A:我們的計(jì)算機(jī)設(shè)備特地為支持新一代測序而剛剛更新過。我們有320 TB的文件服務(wù)器來短期存儲圖像和序列。整套設(shè)備能支持大約30臺Illumina的測序儀。當(dāng)然,我們還會(huì)擴(kuò)充的。

Q:你們會(huì)長久儲存測序儀所獲得的數(shù)據(jù)嗎?

A:就目前來說,是足夠的,因此你不必在每次開始新一輪測序之前刪除以前的。我們有足夠的容量來儲存。但一個(gè)月之后的情況呢,我不敢說。

Q:能談?wù)凷anger研究院的新一代測序平臺所參與的計(jì)劃嗎?

A:我們正利用Illumina參加Mike Stratton的癌癥基因組計(jì)劃以及大猩猩測序計(jì)劃。Julian Parkhill正用它進(jìn)行高通量的病原體研究。例如,在高度可變的**群體中,任一群體都有很多突變,你很難知道哪個(gè)是真正致病的,但是如果你通覽大量的群體,你就能得到其他方法無法獲得的大量信息。我們主要利用454的儀器進(jìn)行病原體測序。

Q:在使用這些新平臺時(shí),你們遇到的技術(shù)及數(shù)據(jù)處理上的大挑戰(zhàn)是什么?

A:我想對于用慣了ABI毛細(xì)管測序儀的人們來說,這些新儀器并不是開箱即用的。你不能只是插上插頭,然后就等著在電腦上分析數(shù)據(jù)。它還需要進(jìn)行許多開發(fā)和支持,這是技術(shù)上的挑戰(zhàn)。就數(shù)據(jù)方面而言,近很多人在討論儲存及計(jì)算需求。每個(gè)人都想儲存圖像,讓問題更加惡化。但是我認(rèn)為這個(gè)問題不難解決,你可以投更多的錢去買更多的硬件。當(dāng)然這對小型實(shí)驗(yàn)室來說比較困難。

大的挑戰(zhàn)是去了解如何以優(yōu)的方式提取和分析數(shù)據(jù),因?yàn)檫@些數(shù)據(jù)我們并不熟悉。例如顏**分、堿基檢出、校準(zhǔn)、數(shù)據(jù)的標(biāo)準(zhǔn)化這些問題。如果你能解決這些問題中的一部分,我們就能獲得更好的分析技術(shù),也就能從相同的數(shù)據(jù)中獲得更多更高質(zhì)量的堿基。

另外一個(gè)問題是儀器廠商的品質(zhì)衡量與用戶不一致。人們不知道該使用哪個(gè)判斷閾值(cutoffs threshold)。我們該把判斷閾值設(shè)在哪里,才能得到好的數(shù)據(jù),但又不拋棄過多的數(shù)據(jù)?這個(gè)問題非常棘手。

David Duggan負(fù)責(zé)TGen的兩個(gè)基因分型中心。他們利用Affymetrix、Illumina、Sequenom和ABI的技術(shù)進(jìn)行著多項(xiàng)基因分型研究。后來,他購買了一臺Illumina的Genome Analyzer,將高通量測序融入了實(shí)驗(yàn)設(shè)計(jì)中。Duggan博士很詳細(xì)地談?wù)摿水?dāng)時(shí)選購GA時(shí)的考慮因素,值得國內(nèi)的實(shí)驗(yàn)室借鑒。不過,那已是兩年前的事了,目前的選擇又多了很多,還需要大家重新評估。

Q:你為何決定購買Illumina的測序儀?

A:你別忘了,我們是在(2007年)3月做決定的。當(dāng)時(shí)只有454和Illumina兩種選擇。我們也和ABI聯(lián)系過。Helicos也聯(lián)系了我們,談到HeliScope。但我們不想為SOLiD再等9個(gè)月,而HeliScope還需要1年多的時(shí)間。

我們也不是光從便利性考慮。我們很滿意Illumina系統(tǒng)的一些特征。比如說,能夠進(jìn)行1 GB的基因組DNA測序;儀器上的運(yùn)行時(shí)間在3天。HeliScope的預(yù)計(jì)運(yùn)行時(shí)間要長得多。同時(shí),Illumina的樣品量為0.1-1 mg,與我們的實(shí)驗(yàn)設(shè)計(jì)相符。后,一個(gè)很大的因素就是運(yùn)行費(fèi)用。Illumina GA的運(yùn)行費(fèi)用在3000-4000美元,比較合理。就這樣的費(fèi)用而言,除了NIH的撥款,我們還能從其他地方獲得基金。所以,購買GA并是出于某種考慮,而是上述種種因素的綜合。

Q:你能不能給我們例舉一下如何將高通量測序整合到研究中?

A:舉個(gè)例子,我們正在進(jìn)行一個(gè)合作項(xiàng)目,利用tag-SNP方法來篩選52個(gè)候選基因。理想上我希望對部分群體中全部52個(gè)基因進(jìn)行重測序,不僅鑒定出SNP變異體,還有插入和缺失多態(tài)性,然后再根據(jù)數(shù)據(jù)設(shè)計(jì)出實(shí)驗(yàn)方法來對7200個(gè)樣品進(jìn)行基因分型。它比單獨(dú)的SNP研究更**。

我們設(shè)想的另一個(gè)實(shí)驗(yàn)設(shè)計(jì)是,目前,我們是分階段進(jìn)行基因組范圍的研究。在每一個(gè)階段,我們將基因組區(qū)域逐漸縮小。一開始,我們研究4000個(gè)樣品的50萬個(gè)SNP。然后根據(jù)預(yù)算,鑒定前1000個(gè)或幾百個(gè)SNP,并在一個(gè)確認(rèn)的群體中進(jìn)行基因分型。之后在第三階段,我們挑出少數(shù)有意義的SNP,并開始重測序。

而有了新一代測序技術(shù)的高通量,我們不再限制在少數(shù)候選區(qū)域。我們能將管道擴(kuò)寬一些,對幾十個(gè)候選基因區(qū)域進(jìn)行重測序。比如之前的一項(xiàng)研究,他們鑒定出人類基因組上II型糖尿病的十個(gè)致病區(qū)域。每次測序一個(gè)?不,我想一次全部測序。新一代測序技術(shù)也賦予我們這個(gè)能力。它比Sanger測序更便宜,也更高效。

Skolnick博士是Myriad Genetics公司的CSO、技術(shù)奠基人。該公司的發(fā)展戰(zhàn)略是開發(fā)急需的醫(yī)療保健產(chǎn)品,主要涉及腫瘤、老年癡呆癥和抗病毒等幾個(gè)領(lǐng)域。他的研究小組克隆了乳腺癌、卵巢癌、前列腺癌、肥胖等**的易感基因。另外,他們還利用Sanger測序和454的Genome Sequencer對葡萄藤和蘋果的基因組進(jìn)行了測序。在,很多測序工作也是圍繞植物展開,那么Skolnick博士的經(jīng)驗(yàn)可能會(huì)有一定的借鑒意義。

Q:你為什么選擇454技術(shù)來進(jìn)行蘋果和葡萄藤項(xiàng)目?

A:當(dāng)時(shí)我們受意大利一所研究院的委托,剛完成了葡萄的項(xiàng)目,并開發(fā)出一種高度自動(dòng)化的引物步移平臺來填補(bǔ)缺口。那時(shí)454剛上市,我們就想454的4倍覆蓋度能夠很好地填補(bǔ)剩余的缺口。實(shí)際上,它完成地非常好,我們也就不需要再進(jìn)行任何引物步移。對于葡萄和蘋果而言,測序都是復(fù)雜的項(xiàng)目,因?yàn)樗鼈兌际欠墙坏奶烊簧?。?fù)雜度在于你實(shí)際上要同時(shí)測兩個(gè)基因組,母本染色體和父本染色體。如果你發(fā)現(xiàn)序列差異,你還必須解釋到底是錯(cuò)誤還是多態(tài)性。

Q:對于蘋果基因組項(xiàng)目,你使用了與葡萄不同的策略。你能談一談這些嗎?

A:在葡萄項(xiàng)目中,我們基本完成了拼接,打算開始引物步移時(shí),才決定使用454。我們利用了7倍Sanger覆蓋度和4倍454覆蓋度。在蘋果項(xiàng)目中,我們只利用BAC和fosmid完成了4倍Sanger覆蓋度,然后,就加入了10倍454覆蓋度,其中大部分是平均500個(gè)堿基的長讀取?,F(xiàn)在,我們的總覆蓋度是14倍,而不是11倍,因?yàn)橛袃蓚€(gè)染色體,父本和母本,那么每個(gè)多態(tài)性的平均覆蓋度為7倍,在確定兩個(gè)染色體的特定差異上,可靠性是進(jìn)一步增強(qiáng)了。

Q:誰開發(fā)了這些項(xiàng)目的拼接軟件?

A:拼接軟件是由我們小組的Andrey Zharkikh開發(fā)的。拼接程序很獨(dú)特,因?yàn)樗谄唇觾蓚€(gè)不同的單倍體。它將顯示出序列相似性的重疊群(contig)放在一起,同時(shí),它又試圖將它們分成A、B兩個(gè)染色體。因此,當(dāng)它看到序列差異或缺失時(shí),它必須詢問“這是我必須修正的錯(cuò)誤嗎?還是我要試圖去理解的真正序列差異?”

有了這種雜合體的拼接策略,你能得到數(shù)百萬個(gè)遺傳標(biāo)記物,非常棒。接著,你能使用它們中的1000或2000或3000的亞群,來進(jìn)行互相定位。于是,你得到了海量的生物學(xué)信息。

Q:你計(jì)劃將拼接軟件與他人共享嗎?

A:當(dāng)然愿意。不過,我們只能克隆Andrey的。它不是一個(gè)真正的程序或產(chǎn)品,它是一系列腳本和代碼片段。我們所能做的是將所有信息告訴454,讓他們在拼接程序中加入這段。將它變成產(chǎn)品需要巨量的工作。那真的超出了我們的范圍。

滬公網(wǎng)安備 31011002002624號