【科研小助手】RnaSeqSampleSize：RNA-Seq樣本量評估工具

發(fā)稿時間：2018-06-06來源：天昊生物

隨著高通量測序技術的發(fā)展，RNA-Seq已經成為差異基因表達研究中的常規(guī)檢測方法。RNA-Seq實驗設計最重要內容之一就是選擇最佳生物重復數以獲得所需統(tǒng)計效能(sample size estimation，樣本大小估計)，或者估計在數據集中成功發(fā)現統(tǒng)計意義的可能性(power estimation，效能估計)。重復次數不足可能導致結論不可靠，而重復次數過多可能導致時間和資源浪費，因此需要研究者在研究成本和實驗效能之間尋求權衡。

幾種常用估計方法及不足

因為RNA-Seq數據可用read counts表示，所以在早期的RNA-Seq研究中，分析主要基于泊松分布（Poisson distribution）進行。然而泊松分布不能很好的與經驗數據相吻合，這主要是由于生物自然變異的過度離散引起的。為了解決這個問題，基于負二項分布的方法（negative binomial distribution-based methods）被開發(fā)出來，為樣本間的變異配置了更大的靈活性。后來，人們又陸續(xù)基于單基因差異表達、多個基因的比較，以及將預算成本納入分析方法，開發(fā)出RNASeqPower、PROPER等多種評估工具。

然而，以往方法仍然存在一些局限性，例如：沒有正確考慮平均read counts和不同基因的離散程度，缺乏適當的參考數據，以及缺乏簡單和用戶友好的界面。因為基因的平均read counts分布在四個數量級以上，它們的離散高度依賴于它們的基因表達水平。由于以前的估計方法不是為這樣的分布設計的，所以研究者經常使用保守地或者根據經驗選擇的一個值，這經常導致樣本量估計過高。雖然近期有研究考慮了基因表達水平與其離散性之間的相關性，引入了一種基于模擬的程序，但這種方法尚未開發(fā)出易于使用的軟件工具。并且，這些方法數據量巨大，占用大量計算資源，也不適用所有規(guī)模的項目。

RnaSeqSampleSize優(yōu)勢：

由于上述問題的存在，該工具開發(fā)者基于多重檢驗中的FDR錯誤控制，并利用真實數據的平均read counts和離散分布來估計更可靠的樣本大小。

開發(fā)出R語言工具包及在線工具RnaSeqSampleSize，在線網址為：https://cqs.mc.vanderbilt.edu/shiny/RnaSeqSampleSize/。

網站首頁展示：

相關研究發(fā)表在2018年5月30日的BMC Bioinformatics上。

圖1、RnaSeqSampleSize工作流程

RnaSeqSampleSize首先利用如癌癥基因組圖譜(TCGA)數據庫中真實的RNA-Seq數據集來估計基因平均read counts和離散分布。RnaSeqSampleSize可以利用大規(guī)模平均read counts和離散程度數據估計，支持多達2000個平均read counts，利用這些信息來指導樣本量和功效的估計。此外，RnaSeqSampleSize還具有幾個獨特的特點，包括對感興趣的基因或途徑的估計、功效曲線可視化和參數優(yōu)化等。

基于真實數據的樣本量估計

如前所述，基因的平均read counts和離散程度在單個RNA-Seq實驗中具有廣泛的分布。平均read counts或離散的微小波動將極大地影響估計的功率或樣本大小(圖2)。例如，在TCGA直腸腺癌(READ)數據集中，基因具有從0到10的離散度，并且平均read counts從1到數千 (圖2a)。在這種情況下，從單個值估計樣本大小是不準確的。本研究計算出，當最小平均read counts從1變?yōu)?/span>30，最大離散從0.1變?yōu)?/span>3時，估計的樣本大小從10增加到302 (圖2b)。

圖2、Read counts或離散對估計的樣本大小和功效有很大影響。a. TCGA直腸腺癌(READ)數據集中所有基因的read counts和離散分布。紅線表示read counts等于1和10。綠色線條表示所有基因離散的95%。b. 在read counts或離散的不同組合中實現0.8的power值所需的估計樣本大小

圖3、用真實數據估計樣本大小。a. TCGA乳腺浸潤性癌(BRCA)和直腸腺癌(READ)數據集中所有基因的read counts分布；b. TCGA BRCA和READ數據集所有基因的離散分布；c. 當樣本大小等于71時，TCGA BRCA數據集中基于計數和離散分布的功效分布。紅線表示power平均值。d .當樣本大小等于71時，基于TCGA READ數據集中的read counts和離散分布的功效分布。紅線表示power平均值

感興趣基因或途徑的樣本量估計

在某些情況下，研究人員可能對某些特征(如共享通路或基因GO類別)定義的基因子集感興趣，而不是對整個基因組感興趣。在這種情況下，樣本量估計方法需要調整，因為與其他基因相比，感興趣的基因子集可能具有不同的表達模式。RnaSeqSampleSize被設計成通過允許用戶提供感興趣基因的列表或KEGG通路ID來處理這樣的實驗設計中的樣本大小和功效分析；這確保了只有感興趣的基因或所選途徑中的基因的read counts和離散分布被用于估計（圖4）。

圖4、感興趣基因的樣本量估計。a. TCGA READ數據集中三個KEGG通路基因的的read counts分布；b. TCGA READ數據集中三個KEGG通路中基因的離散分布； c. 當樣本大小等于71時，基于TCGA READ數據集中鈣信號通路基因的計數和離散分布的功效分布。紅線表示power平均值。d.當樣本大小等于71時，基于TCGA READ數據集中蛋白酶體途徑基因的計數和離散分布的功效分布。紅線表示power的平均值

不同參數下的功效曲線可視化及優(yōu)化

功效曲線被廣泛用于分析和比較樣本大小估計結果。為了演示RnaSeqSampleSize中的功率曲線可視化特性，研究者根據不同的場景生成了三條功率曲線。如圖5a所示，X軸表示兩組中使用的樣本總數，Y軸表示估計功效。樣本分配設計有三種類型:兩組1:1樣本大小(紅色曲線)；2:1兩組樣品大小(藍色曲線)；3:1兩組樣品大小(紫色曲線)。功效和樣本數之間的關系可以很容易地可視化。在圖5a所示的例子中，功效曲線表示當使用相同的樣本總數時，平衡(樣本大小1:1 )實驗設計(紅色曲線)獲得最高功效。

圖5、用RnaSeqSampleSize實現功效曲線可視化和參數優(yōu)化。平衡后(兩組樣本大小相同)和未平衡(兩組樣本大小不同)的實驗設計功效曲線。功效曲線表明，平衡后實驗設計(紅線)在相同樣品總數下將獲得最高功率；b. 樣本量估計中的參數優(yōu)化。離散和倍數變化分別設置為0.5和2。生成具有不同樣本數和讀取計數對的功效矩陣。功效分布表明，樣本數對功效的確定起著更重要的作用，建議在RNA-Seq實驗中至少使用96個樣本，利用這些參數得到0.8的功率

RNA-Seq實驗設計經常受到預算的限制。RnaSeqSampleSize中的優(yōu)化功能可用于確定在不超出預算的情況下實現最高功率的最佳參數。為了演示參數優(yōu)化功能，研究者嘗試優(yōu)化樣本數和read counts，同時固定所有其他參數(fold change: 2；離散度: 1；FDR : 0.05 )通過產生功率矩陣(圖5)。當使用16個樣本時，即使讀取計數高達96，估計功率也小于0.1。然而，當樣本數增加到96時，即使當讀取計數低至8時，估計功率也增加到0.8。該矩陣表明，樣本數量在確定power方面比read counts起更重要的作用。

往期精選文章：

37個RNA-seq工具大PK，教你數據處理方法如何選擇

【昊閱讀】基因表達數據的模塊檢測方法綜合評價

TCGA收官之作—27篇重磅文獻繪制“泛癌圖譜”

【昊閱讀】RNA-seq揭示油茶冷適應的分子機制

LncRNA研究，像這個夏天一樣“火熱異?！?/span>

關于天昊：

天昊生物，RNA-seq技術的優(yōu)質服務提供商！我們通過對RNA-seq各個實驗及生信分析環(huán)節(jié)不斷優(yōu)化，為客戶提供更加準確、可靠及個性化的數據檢測和分析結果，為您的科學研究保駕護航！

92视频呻吟久久Alr,日韩亚洲视频一区,青青操日本逼碰碰,亚洲欧美日韩中文一区,国产偷自拍,精品一区在线,亚洲精品在线久久,九九国产精品人妻,天堂影视麻豆

新聞媒體

【科研小助手】RnaSeqSampleSize：RNA-Seq樣本量評估工具

發(fā)稿時間：2018-06-06來源：天昊生物

相關鏈接

核心產品

聯(lián)系方式