廣東組學(xué)實(shí)驗數(shù)據(jù)科學(xué)經(jīng)驗豐富

來源: 發(fā)布時間:2022-01-27

    術(shù)語解讀:PPI:蛋白質(zhì)-蛋白質(zhì)相互作用(protein-proteininteraction)PPImoduleI:指蛋白質(zhì)相互作用模塊,一個模塊指向一個功能數(shù)據(jù)要求:基因列表應(yīng)用示例1:(于2018年3月發(fā)表在Immunity.,影響因子)T細(xì)胞活化過程中產(chǎn)生蛋白質(zhì)組進(jìn)行多重定量分析,然后對差異表達(dá)蛋白權(quán)重聚類,并將聚類蛋白疊加到PPI網(wǎng)絡(luò)上以識別功能模塊。D.模塊大小的分布,通過將每個WPC(權(quán)重聚類結(jié)果)中的蛋白疊加到蛋白-蛋白相互作用(PPI)網(wǎng)絡(luò)上識別模塊。每個模塊的蛋白質(zhì)數(shù)量顯示出來。E.各個模塊及其交互的關(guān)系圖。圓圈(節(jié)點(diǎn))表示90個模塊,圓圈大小與模塊大小成比例。邊連接共享PPIs的模塊。在(F)和(G)中進(jìn)一步擴(kuò)展了裝箱模塊。F.來自WPC3的細(xì)胞質(zhì)和線粒體核糖體的四個互連模塊。顯示了蛋白質(zhì)的名稱和每個模塊的代表性功能術(shù)語。G.來自WPC3的蛋白酶體,OXPHOS和線粒體復(fù)合物IV途徑的模塊。 微生物多樣性分析桌面軟件。廣東組學(xué)實(shí)驗數(shù)據(jù)科學(xué)經(jīng)驗豐富

    Lasso術(shù)語解讀λ(Lambda):復(fù)雜度調(diào)整懲罰值,λ越大對變量較多的線性模型的懲罰力度就越大,**終獲得的變量越少。是指在所有的λ值中,得到**小目標(biāo)參量均值的那一個。而是指在一個方差范圍內(nèi)得到**簡單模型的那一個λ值。交叉驗證(crossvalidation):交叉驗證是在機(jī)器學(xué)習(xí)建立模型和驗證模型參數(shù)時常用的辦法。交叉驗證,顧名思義,就是重復(fù)的使用數(shù)據(jù),把得到的樣本數(shù)據(jù)進(jìn)行切分,組合為不同的訓(xùn)練集和測試集,用訓(xùn)練集來訓(xùn)練模型,用測試集來評估模型預(yù)測的好壞。在此基礎(chǔ)上可以得到多組不同的訓(xùn)練集和測試集,某次訓(xùn)練集中的某樣本在下次可能成為測試集中的樣本,即所謂“交叉”。數(shù)據(jù)要求:1、表達(dá)譜芯片或測序數(shù)據(jù)(已經(jīng)過預(yù)處理)或突變數(shù)據(jù)2、包含生存狀態(tài)和生存時間的預(yù)后數(shù)據(jù)或者其它臨床分組數(shù)據(jù)。 天津算法還原與開發(fā)數(shù)據(jù)科學(xué)活動長期與交大、復(fù)旦、中科院、南大、藥科大等實(shí)驗室合作。

    GSVA算法接受的輸入為基因表達(dá)矩陣(經(jīng)過log2標(biāo)準(zhǔn)化的芯片數(shù)據(jù)或者RNA-seqcount數(shù)數(shù)據(jù))以及特定基因集。**步,算法會對表達(dá)數(shù)據(jù)進(jìn)行核密度估計;第二部,基于**步的結(jié)果對樣本進(jìn)行表達(dá)水平排序;第三步,對于每一個基因集進(jìn)行類似K-S檢驗的秩統(tǒng)計量計算;第四步,獲取GSVA富集分?jǐn)?shù)。**終輸出為以每個基因集對應(yīng)每個樣本的數(shù)據(jù)矩陣。無監(jiān)督算法無監(jiān)督算法常常被用于數(shù)據(jù)挖掘,用于在大量無標(biāo)簽數(shù)據(jù)中發(fā)現(xiàn)些什么。它的訓(xùn)練數(shù)據(jù)是無標(biāo)簽的,訓(xùn)練目標(biāo)是能對觀察值進(jìn)行分類或區(qū)分等。核密度估計核密度估計(kerneldensityestimation)在概率論中用來估計未知的密度函數(shù),屬于非參數(shù)檢驗方法之一。數(shù)據(jù)要求1、特定感興趣的基因集(如信號通路,GO條目等),列出基因集中基因2、基因表達(dá)矩陣,為經(jīng)過log2標(biāo)準(zhǔn)化的芯片數(shù)據(jù)或者RNA-seqcount數(shù)數(shù)據(jù)(基因名形式與基因集對應(yīng))下游分析1、基因集(如信號通路)的生存分析2、基因集(如信號通路)的差異表達(dá)分析3、基因集。

Inmmune gene

免疫學(xué)研究是目前科研領(lǐng)域爭相研究的熱點(diǎn),**免疫細(xì)胞浸潤是其中一種。**免疫細(xì)胞浸潤是指免疫細(xì)胞從血液中移向**組織發(fā)揮作用。我們從**組織中分離出浸潤免疫細(xì)胞含量,計算基因與浸潤免疫細(xì)胞含量的相關(guān)性,篩選出影響免疫浸潤的候選基因。

基本原理:

從基因矩陣數(shù)據(jù)中提取免疫細(xì)胞含量,生成免疫細(xì)胞含量矩陣;

計算目標(biāo)基因與浸潤免疫細(xì)胞含量的相關(guān)性,篩選與浸潤免疫細(xì)胞含量高度相關(guān)的基因。

術(shù)語解讀:

相關(guān)性系數(shù)(pearson,spearman, kendall)反應(yīng)兩個變量之間變化趨勢的方向以及程度。相關(guān)系數(shù)范圍為-1到+1。0表示兩個變量不相關(guān),正值表示正相關(guān),負(fù)值表示負(fù)相關(guān),值越大表示相關(guān)性越強(qiáng)。

數(shù)據(jù)要求:

**數(shù)據(jù)表達(dá)矩陣 調(diào)控區(qū)域ChiP-seq信號分布圖。

    GSEA數(shù)據(jù)要求1、通常為表達(dá)譜芯片或測序數(shù)據(jù)(已經(jīng)過預(yù)處理),也可以是其他形式可排序的基因數(shù)據(jù)。2、具有已知生物學(xué)意義(GO、Pathway、**特征基因集等)的基因集。下游分析:得到GSEA結(jié)果之后的分析有:1.基因注釋:1、繪制基因集富集趨勢圖(Enrichmentplot)橫坐標(biāo):按差異表達(dá)差異排序的基因序列。數(shù)值越?。ㄆ蜃蠖耍┑幕?*在shICAM-1組中有越高倍數(shù)的差異表達(dá),數(shù)值越?。ㄆ蛴叶耍┑幕蛟趯φ战M中有越高倍數(shù)的差異表達(dá)??v坐標(biāo):上方的縱坐標(biāo)為富集打分ES,ES是一個動態(tài)的值,沿著基因序列,找到條目中的基因則增加評分,否則減少評分。通常用偏離0**遠(yuǎn)的值作為**終富集打分。下方的縱坐標(biāo)**基因表達(dá)與表型的關(guān)聯(lián),***值越大**關(guān)聯(lián)越強(qiáng),數(shù)值大于0**正相關(guān),小于0則**負(fù)相關(guān)。 結(jié)合WGCNA的ceRNA分析。天津算法還原與開發(fā)數(shù)據(jù)科學(xué)活動

診療軟件開發(fā)、算法還原與開發(fā)、臨床統(tǒng)計等數(shù)據(jù)科學(xué)工作。廣東組學(xué)實(shí)驗數(shù)據(jù)科學(xué)經(jīng)驗豐富

棒棒糖圖是直觀顯示蛋白質(zhì)結(jié)構(gòu)上的突變點(diǎn)**簡單且有效的方式。許多致*基因具有比任何其他基因座更頻繁突變的優(yōu)先位點(diǎn)。這些位點(diǎn)被認(rèn)為是突變熱點(diǎn),棒棒糖圖可以用于顯示突變熱點(diǎn)以及其他突變位點(diǎn)。并可以對比不同**/亞型的突變位點(diǎn)。

基本原理

將蛋白質(zhì)結(jié)構(gòu)根據(jù)氨基酸順序繪制為長條形,以不同色塊標(biāo)注不同結(jié)構(gòu)域,在基因突變導(dǎo)致氨基酸改變的位置標(biāo)注棒棒糖,并在棒棒糖圓球標(biāo)注位點(diǎn)的突變頻數(shù)以及突變位點(diǎn)。

數(shù)據(jù)要求

基因突變或者蛋白質(zhì)突變數(shù)據(jù)


下游分析

1、突變位點(diǎn)靶向藥物分析

2、驅(qū)動基因突變分析 廣東組學(xué)實(shí)驗數(shù)據(jù)科學(xué)經(jīng)驗豐富