隨著高通量測序技術的發(fā)展,RNA-Seq已經成為差異基因表達研究中的常規(guī)檢測方法。RNA-Seq實驗設計最重要內容之一就是選擇最佳生物重復數以獲得所需統(tǒng)計效能(sample size estimation,樣本大小估計),或者估計在數據集中成功發(fā)現統(tǒng)計意義的可能性(power estimation,效能估計)。重復次數不足可能導致結論不可靠,而重復次數過多可能導致時間和資源浪費,因此需要研究者在研究成本和實驗效能之間尋求權衡。
幾種常用估計方法及不足
因為RNA-Seq數據可用read counts表示,所以在早期的RNA-Seq研究中,分析主要基于泊松分布(Poisson distribution)進行。然而泊松分布不能很好的與經驗數據相吻合,這主要是由于生物自然變異的過度離散引起的。為了解決這個問題,基于負二項分布的方法(negative binomial distribution-based methods)被開發(fā)出來,為樣本間的變異配置了更大的靈活性。后來,人們又陸續(xù)基于單基因差異表達、多個基因的比較,以及將預算成本納入分析方法,開發(fā)出RNASeqPower、PROPER等多種評估工具。
然而,以往方法仍然存在一些局限性,例如:沒有正確考慮平均read counts和不同基因的離散程度,缺乏適當的參考數據,以及缺乏簡單和用戶友好的界面。因為基因的平均read counts分布在四個數量級以上,它們的離散高度依賴于它們的基因表達水平。由于以前的估計方法不是為這樣的分布設計的,所以研究者經常使用保守地或者根據經驗選擇的一個值,這經常導致樣本量估計過高。雖然近期有研究考慮了基因表達水平與其離散性之間的相關性,引入了一種基于模擬的程序,但這種方法尚未開發(fā)出易于使用的軟件工具。并且,這些方法數據量巨大,占用大量計算資源,也不適用所有規(guī)模的項目。
RnaSeqSampleSize優(yōu)勢:
由于上述問題的存在,該工具開發(fā)者基于多重檢驗中的FDR錯誤控制,并利用真實數據的平均read counts和離散分布來估計更可靠的樣本大小。
開發(fā)出R語言工具包及在線工具RnaSeqSampleSize,在線網址為:https://cqs.mc.vanderbilt.edu/shiny/RnaSeqSampleSize/。
網站首頁展示:
相關研究發(fā)表在2018年5月30日的BMC Bioinformatics上。
圖1、RnaSeqSampleSize工作流程
RnaSeqSampleSize首先利用如癌癥基因組圖譜(TCGA)數據庫中真實的RNA-Seq數據集來估計基因平均read counts和離散分布。RnaSeqSampleSize可以利用大規(guī)模平均read counts和離散程度數據估計,支持多達2000個平均read counts,利用這些信息來指導樣本量和功效的估計。此外,RnaSeqSampleSize還具有幾個獨特的特點,包括對感興趣的基因或途徑的估計、功效曲線可視化和參數優(yōu)化等。
基于真實數據的樣本量估計
如前所述,基因的平均read counts和離散程度在單個RNA-Seq實驗中具有廣泛的分布。平均read counts或離散的微小波動將極大地影響估計的功率或樣本大小(圖2)。例如,在TCGA直腸腺癌(READ)數據集中,基因具有從0到10的離散度,并且平均read counts從1到數千 (圖2a)。在這種情況下,從單個值估計樣本大小是不準確的。本研究計算出,當最小平均read counts從1變?yōu)?/span>30,最大離散從0.1變?yōu)?/span>3時,估計的樣本大小從10增加到302 (圖2b)。
圖2、Read counts或離散對估計的樣本大小和功效有很大影響。a. TCGA直腸腺癌(READ)數據集中所有基因的read counts和離散分布。紅線表示read counts等于1和10。綠色線條表示所有基因離散的95%。b. 在read counts或離散的不同組合中實現0.8的power值所需的估計樣本大小
圖3、用真實數據估計樣本大小。a. TCGA乳腺浸潤性癌(BRCA)和直腸腺癌(READ)數據集中所有基因的read counts分布;b. TCGA BRCA和READ數據集所有基因的離散分布;c. 當樣本大小等于71時,TCGA BRCA數據集中基于計數和離散分布的功效分布。紅線表示power平均值。d .當樣本大小等于71時,基于TCGA READ數據集中的read counts和離散分布的功效分布。紅線表示power平均值
感興趣基因或途徑的樣本量估計
在某些情況下,研究人員可能對某些特征(如共享通路或基因GO類別)定義的基因子集感興趣,而不是對整個基因組感興趣。在這種情況下,樣本量估計方法需要調整,因為與其他基因相比,感興趣的基因子集可能具有不同的表達模式。RnaSeqSampleSize被設計成通過允許用戶提供感興趣基因的列表或KEGG通路ID來處理這樣的實驗設計中的樣本大小和功效分析;這確保了只有感興趣的基因或所選途徑中的基因的read counts和離散分布被用于估計(圖4)。
圖4、感興趣基因的樣本量估計。a. TCGA READ數據集中三個KEGG通路基因的的read counts分布;b. TCGA READ數據集中三個KEGG通路中基因的離散分布; c. 當樣本大小等于71時,基于TCGA READ數據集中鈣信號通路基因的計數和離散分布的功效分布。紅線表示power平均值。d.當樣本大小等于71時,基于TCGA READ數據集中蛋白酶體途徑基因的計數和離散分布的功效分布。紅線表示power的平均值
不同參數下的功效曲線可視化及優(yōu)化
功效曲線被廣泛用于分析和比較樣本大小估計結果。為了演示RnaSeqSampleSize中的功率曲線可視化特性,研究者根據不同的場景生成了三條功率曲線。如圖5a所示,X軸表示兩組中使用的樣本總數,Y軸表示估計功效。樣本分配設計有三種類型:兩組1:1樣本大小(紅色曲線);2:1兩組樣品大小(藍色曲線);3:1兩組樣品大小(紫色曲線)。功效和樣本數之間的關系可以很容易地可視化。在圖5a所示的例子中,功效曲線表示當使用相同的樣本總數時,平衡(樣本大小1:1 )實驗設計(紅色曲線)獲得最高功效。
圖5、用RnaSeqSampleSize實現功效曲線可視化和參數優(yōu)化。平衡后(兩組樣本大小相同)和未平衡(兩組樣本大小不同)的實驗設計功效曲線。功效曲線表明,平衡后實驗設計(紅線)在相同樣品總數下將獲得最高功率;b. 樣本量估計中的參數優(yōu)化。離散和倍數變化分別設置為0.5和2。生成具有不同樣本數和讀取計數對的功效矩陣。功效分布表明,樣本數對功效的確定起著更重要的作用,建議在RNA-Seq實驗中至少使用96個樣本,利用這些參數得到0.8的功率
RNA-Seq實驗設計經常受到預算的限制。RnaSeqSampleSize中的優(yōu)化功能可用于確定在不超出預算的情況下實現最高功率的最佳參數。為了演示參數優(yōu)化功能,研究者嘗試優(yōu)化樣本數和read counts,同時固定所有其他參數(fold change: 2;離散度: 1;FDR : 0.05 )通過產生功率矩陣(圖5)。當使用16個樣本時,即使讀取計數高達96,估計功率也小于0.1。然而,當樣本數增加到96時,即使當讀取計數低至8時,估計功率也增加到0.8。該矩陣表明,樣本數量在確定power方面比read counts起更重要的作用。
往期精選文章:
關于天昊:
天昊生物,RNA-seq技術的優(yōu)質服務提供商!我們通過對RNA-seq各個實驗及生信分析環(huán)節(jié)不斷優(yōu)化,為客戶提供更加準確、可靠及個性化的數據檢測和分析結果,為您的科學研究保駕護航!