下游分析針對LASSO獲得的基因模型(或稱基因Panel)的驗證:1.計算風(fēng)險指數(shù)RiskScore2.繪制ROC曲線、DCA曲線、列線圖進(jìn)行驗證3.繪制生KM存曲線對基因模型中的基因進(jìn)行解釋和分析:1.基因注釋2.靶向藥物分析應(yīng)用示例:文獻(xiàn)1:PrognosticandpredictivevalueofamicroRNAsignatureinstageIIcoloncancer:amicroRNAexpressionanalysis.于2013年12月發(fā)表在LancetOncol.,影響因子。一個miRNA特征集在stageII結(jié)腸*的預(yù)后預(yù)測作用分析文章對stageII結(jié)腸*組織和*旁正常組織的miRNA芯片數(shù)據(jù)進(jìn)行了差異表達(dá)分析,并通過LASSOCox回歸對獲得的差異表達(dá)miRNA進(jìn)行篩選,獲得了6個miRNA的可以預(yù)測預(yù)后情況的miRNA特征集。文獻(xiàn)2:PrognosticValueofaBCSC-associatedMicroRNASignatureinHormoneReceptor-PositiveHER2-NegativeBreastCancer(于2016年9月發(fā)表在EBioMedicine.上,影響因子)文章將符合條件的患者劃分為訓(xùn)練集和測試集,首先分析獲得了**干細(xì)胞相關(guān)的miRNA,接著通過LASSO對**干細(xì)胞相關(guān)的miRNA進(jìn)行篩選,構(gòu)建了10個miRNA的預(yù)后預(yù)測模型,并計算風(fēng)險指數(shù)繪制了生存曲線和ROC曲線。 根據(jù)委托方提供的參考文獻(xiàn)和要求進(jìn)行個性化特定分析。湖北算法還原與開發(fā)數(shù)據(jù)科學(xué)歡迎咨詢
GSEA術(shù)語解讀Enrichmentscore(ES)ES是GSEA**初的結(jié)果,反應(yīng)關(guān)注的基因集S在原始基因數(shù)據(jù)序列L的頂部或底部富集的程度。ES原理:掃描排序序列,當(dāng)出現(xiàn)一個基因集S中的基因時,增加ES值,反之減少ES值,一個基因的ES值權(quán)重與差異表達(dá)度相關(guān)。ES是個動態(tài)值,**終ES是動態(tài)掃描過程中獲得的**ES值。如果**終ES為正,表示某一功能基因集S富集在排序序列頂部。ES為負(fù),表示某一基因集S富集在排序序列底部。NES由于ES是根據(jù)分析的排序序列中的基因是否在一個基因集S中出現(xiàn)來計算的,但各個基因集S中包含的基因數(shù)目不同,且不同功能基因集S與原始數(shù)據(jù)之間的相關(guān)性也不同,因此比較數(shù)據(jù)中基因在不同基因集S中的富集程度要對ES進(jìn)行標(biāo)準(zhǔn)化處理,也就是計算NES。NES=某一基因集S的ES/數(shù)據(jù)集所有隨機(jī)組合得到的ES平均值,NES是主要的統(tǒng)計量。nominalp-value(普通P值)描述的是針對某一功能基因集S得到的富集得分的統(tǒng)計***性,通常p越小富集性越好。FDR(多重假設(shè)檢驗矯正P值)NES確定后,需要判斷其中可能包含的錯誤陽性發(fā)現(xiàn)率。FDR=25%意味著對此NES的判斷4次可能錯1次。GSEA結(jié)果中,高亮顯示FDR<25%的富集基因集S。因為從這些功能基因集S中**可能產(chǎn)生有意義的假設(shè)。大多數(shù)情況下。 組學(xué)數(shù)據(jù)處理數(shù)據(jù)科學(xué)方案乳腺類疾病預(yù)后相關(guān)信性基因突變研究數(shù)據(jù)包。
GSEA分析:GSEA全名為GeneSetEnrichmentAnalysis(基因集富集分析)。用以分析特定基因集(如關(guān)注的GO條目或KEGGPathway)在兩個生物學(xué)狀態(tài)(如**與對照,高齡與低齡)中是否存在差異。能夠研究基因變化的生物學(xué)意義。普通GO/KEGG富集的思路是先篩選差異基因,然后確定這些差異基因的GO/KEGG注釋,然后通過超幾何分布計算出哪些通路富集到了,再通過p值或FDR等閾值進(jìn)行篩選。挑選用于富集的基因有一定的主觀性,沒有關(guān)注到的基因的信息會被忽視,所以有一定的局限性。在這種情況下有了GSEA(GeneSetEnrichmentAnalysis),其思路是發(fā)表于2005年的Genesetenrichmentanalysis:aknowledge-basedapproachforinterpretinggenome-wideexpressionprofiles。主要是要有兩個概念:預(yù)先定義的基因集S(基于先驗知識的基因注釋信息)和待分析基因集L(一般初始輸入是表達(dá)矩陣);然后GSEA目的就是為了判斷S基因集中的基因是隨機(jī)分布于L(按差異表達(dá)程度對基因進(jìn)行排序),還是聚集分布在L的頂部或者底部(也就是存在差異性富集)。如果基因集中的基因***富集在L的頂部或者底部,這說明這些基因的表達(dá)對定義的分組(預(yù)先分組)的差異有***影響(一致性)。在富集分析的理論中。
ROC機(jī)器學(xué)習(xí)受試者工作特征曲線(receiveroperatingcharacteristiccurve,簡稱ROC曲線),又稱為感受性曲線(sensitivitycurve),是用來驗證一個分類器(二分)模型的性能的。一般應(yīng)用于直觀展示敏感性和特異性連續(xù)變量的綜合指標(biāo),如比較多個biomarker或臨床參數(shù)的診斷表現(xiàn)、比較多個算法的分類效果?;驹鞷OC曲線工作原理是,向模型中輸入已知正負(fù)類的一組數(shù)據(jù),對比模型對該組數(shù)據(jù)的預(yù)測,衡量這個模型的性能。術(shù)語解讀:1、TP(TruePositive,真正,TP)被模型預(yù)測為正的正樣本(原來為正預(yù)測為正)2、TN(TrueNegative,真負(fù),TN)被模型預(yù)測為負(fù)的負(fù)樣本(原來為負(fù)預(yù)測為負(fù))3、FP(FalsePositive,假正,FP)被模型預(yù)測為正的負(fù)樣本(原來為負(fù)預(yù)測為正)4、FN(FalseNegative,假負(fù),FN)被模型預(yù)測為負(fù)的正樣本(原來為正預(yù)測為負(fù))5、真正類率(TruePostiveRate)TPR:TP/(TP+FN),**分類器預(yù)測的正類中實際正實例占所有正實例的比例。Sensitivity6、假正類率(FalsePostiveRate)FPR:FP/(FP+TN),**分類器預(yù)測的負(fù)類中預(yù)測為正實例(實際為負(fù)實例)占所有負(fù)實例的比例。1-Specificity7、真負(fù)類率(TrueNegativeRate)TNR:TN/(FP+TN)。 診療軟件開發(fā)、算法還原與開發(fā)、臨床統(tǒng)計等數(shù)據(jù)科學(xué)工作。
GSVA(基因集變異分析,反映了樣本和感興趣的通路之間的聯(lián)系):GSVA全名Genesetvariationanalysis(基因集變異分析),是一種非參數(shù),無監(jiān)督的算法。與GSEA不同,GSVA不需要預(yù)先對樣本進(jìn)行分組,可以計算每個樣本中特定基因集的富集分?jǐn)?shù)。換而言之,GSVA轉(zhuǎn)化了基因表達(dá)數(shù)據(jù),從單個基因作為特征的表達(dá)矩陣,轉(zhuǎn)化為特定基因集作為特征的表達(dá)矩陣。GSVA對基因富集結(jié)果進(jìn)行了量化,可以更方便地進(jìn)行后續(xù)統(tǒng)計分析。如果用limma包做差異表達(dá)分析可以尋找樣本間差異表達(dá)的基因,同樣地,使用limma包對GSVA的結(jié)果(依然是一個矩陣)做同樣的分析,則可以尋找樣本間有***差異的基因集。這些“差異表達(dá)”的基因集,相對于基因而言,更加具有生物學(xué)意義,更具有可解釋性,可以進(jìn)一步用于**subtype的分型等等與生物學(xué)意義結(jié)合密切的探究。 不斷拓展各類大學(xué)、科研院所、醫(yī)院學(xué)術(shù)資源,互通有無,形成強(qiáng)大學(xué)術(shù)生態(tài)圈。廣東臨床統(tǒng)計數(shù)據(jù)科學(xué)活動
與復(fù)旦大學(xué)問附屬醫(yī)院合作,開發(fā)人血液外泌體中RNA的數(shù)據(jù)庫。湖北算法還原與開發(fā)數(shù)據(jù)科學(xué)歡迎咨詢
GeneInteraction基因互作:基因相互作用指miRNA、lncRNA、circRNA或其它RNA介導(dǎo)DNA轉(zhuǎn)錄,從而影響mRNA的表達(dá)過程。通俗意義上來說,基因互作關(guān)系指基于序列預(yù)測的靶基因?qū)?。miRNA通過與靶mRNA的結(jié)合,或促使mRNA降解,或阻礙其翻譯,從而***目的基因的表達(dá)。競爭性內(nèi)源RNA網(wǎng)絡(luò)是靶基因預(yù)測的研究深入,簡稱ceRNA網(wǎng)絡(luò)。通過進(jìn)行ceRNA網(wǎng)絡(luò)的分析,我們能從一個更為宏觀的角度來解釋轉(zhuǎn)錄體如何構(gòu)建基因表達(dá)調(diào)控網(wǎng)絡(luò),從而進(jìn)一步挖掘基因在其中的調(diào)控機(jī)制?;驹恚簃iRNA主要通過與靶基因的非翻譯區(qū)(UTR)結(jié)合而發(fā)揮其作用,對miRNA和mRNA、lncRNA、circRNA結(jié)合進(jìn)行的預(yù)測稱為靶基因預(yù)測。靶基因預(yù)測使用軟件根據(jù)miRNA和靶基因間的結(jié)合的規(guī)律預(yù)測結(jié)合基因?qū)?。在生物體內(nèi),miRNA可以通過與proteincoding特異性結(jié)合,影響相關(guān)基因的表達(dá),從而參與調(diào)控細(xì)胞內(nèi)的各項功能。ceRNA具有miRNA結(jié)合位點(diǎn),能后競爭性地結(jié)合miRNA,***miRNA對靶基因的調(diào)控。例如lncRNA與miRNA競爭性結(jié)合,影響miRNA調(diào)控mRNA的過程,**終導(dǎo)致的mRNA表達(dá)失調(diào)。我們使用基于序列預(yù)測的軟件對差異分析得到的miRNA與mRNA,lncRNA,circRNA進(jìn)行靶點(diǎn)預(yù)測和ceRNA網(wǎng)絡(luò)分析。 湖北算法還原與開發(fā)數(shù)據(jù)科學(xué)歡迎咨詢