廣東組學實驗數據科學經驗豐富

來源: 發(fā)布時間:2022-01-27

    術語解讀:PPI:蛋白質-蛋白質相互作用(protein-proteininteraction)PPImoduleI:指蛋白質相互作用模塊,一個模塊指向一個功能數據要求:基因列表應用示例1:(于2018年3月發(fā)表在Immunity.,影響因子)T細胞活化過程中產生蛋白質組進行多重定量分析,然后對差異表達蛋白權重聚類,并將聚類蛋白疊加到PPI網絡上以識別功能模塊。D.模塊大小的分布,通過將每個WPC(權重聚類結果)中的蛋白疊加到蛋白-蛋白相互作用(PPI)網絡上識別模塊。每個模塊的蛋白質數量顯示出來。E.各個模塊及其交互的關系圖。圓圈(節(jié)點)表示90個模塊,圓圈大小與模塊大小成比例。邊連接共享PPIs的模塊。在(F)和(G)中進一步擴展了裝箱模塊。F.來自WPC3的細胞質和線粒體核糖體的四個互連模塊。顯示了蛋白質的名稱和每個模塊的代表性功能術語。G.來自WPC3的蛋白酶體,OXPHOS和線粒體復合物IV途徑的模塊。 微生物多樣性分析桌面軟件。廣東組學實驗數據科學經驗豐富

    Lasso術語解讀λ(Lambda):復雜度調整懲罰值,λ越大對變量較多的線性模型的懲罰力度就越大,**終獲得的變量越少。是指在所有的λ值中,得到**小目標參量均值的那一個。而是指在一個方差范圍內得到**簡單模型的那一個λ值。交叉驗證(crossvalidation):交叉驗證是在機器學習建立模型和驗證模型參數時常用的辦法。交叉驗證,顧名思義,就是重復的使用數據,把得到的樣本數據進行切分,組合為不同的訓練集和測試集,用訓練集來訓練模型,用測試集來評估模型預測的好壞。在此基礎上可以得到多組不同的訓練集和測試集,某次訓練集中的某樣本在下次可能成為測試集中的樣本,即所謂“交叉”。數據要求:1、表達譜芯片或測序數據(已經過預處理)或突變數據2、包含生存狀態(tài)和生存時間的預后數據或者其它臨床分組數據。 天津算法還原與開發(fā)數據科學活動長期與交大、復旦、中科院、南大、藥科大等實驗室合作。

    GSVA算法接受的輸入為基因表達矩陣(經過log2標準化的芯片數據或者RNA-seqcount數數據)以及特定基因集。**步,算法會對表達數據進行核密度估計;第二部,基于**步的結果對樣本進行表達水平排序;第三步,對于每一個基因集進行類似K-S檢驗的秩統(tǒng)計量計算;第四步,獲取GSVA富集分數。**終輸出為以每個基因集對應每個樣本的數據矩陣。無監(jiān)督算法無監(jiān)督算法常常被用于數據挖掘,用于在大量無標簽數據中發(fā)現些什么。它的訓練數據是無標簽的,訓練目標是能對觀察值進行分類或區(qū)分等。核密度估計核密度估計(kerneldensityestimation)在概率論中用來估計未知的密度函數,屬于非參數檢驗方法之一。數據要求1、特定感興趣的基因集(如信號通路,GO條目等),列出基因集中基因2、基因表達矩陣,為經過log2標準化的芯片數據或者RNA-seqcount數數據(基因名形式與基因集對應)下游分析1、基因集(如信號通路)的生存分析2、基因集(如信號通路)的差異表達分析3、基因集。

Inmmune gene

免疫學研究是目前科研領域爭相研究的熱點,**免疫細胞浸潤是其中一種。**免疫細胞浸潤是指免疫細胞從血液中移向**組織發(fā)揮作用。我們從**組織中分離出浸潤免疫細胞含量,計算基因與浸潤免疫細胞含量的相關性,篩選出影響免疫浸潤的候選基因。

基本原理:

從基因矩陣數據中提取免疫細胞含量,生成免疫細胞含量矩陣;

計算目標基因與浸潤免疫細胞含量的相關性,篩選與浸潤免疫細胞含量高度相關的基因。

術語解讀:

相關性系數(pearson,spearman, kendall)反應兩個變量之間變化趨勢的方向以及程度。相關系數范圍為-1到+1。0表示兩個變量不相關,正值表示正相關,負值表示負相關,值越大表示相關性越強。

數據要求:

**數據表達矩陣 調控區(qū)域ChiP-seq信號分布圖。

    GSEA數據要求1、通常為表達譜芯片或測序數據(已經過預處理),也可以是其他形式可排序的基因數據。2、具有已知生物學意義(GO、Pathway、**特征基因集等)的基因集。下游分析:得到GSEA結果之后的分析有:1.基因注釋:1、繪制基因集富集趨勢圖(Enrichmentplot)橫坐標:按差異表達差異排序的基因序列。數值越?。ㄆ蜃蠖耍┑幕?*在shICAM-1組中有越高倍數的差異表達,數值越小(偏向右端)的基因在對照組中有越高倍數的差異表達??v坐標:上方的縱坐標為富集打分ES,ES是一個動態(tài)的值,沿著基因序列,找到條目中的基因則增加評分,否則減少評分。通常用偏離0**遠的值作為**終富集打分。下方的縱坐標**基因表達與表型的關聯,***值越大**關聯越強,數值大于0**正相關,小于0則**負相關。 結合WGCNA的ceRNA分析。天津算法還原與開發(fā)數據科學活動

診療軟件開發(fā)、算法還原與開發(fā)、臨床統(tǒng)計等數據科學工作。廣東組學實驗數據科學經驗豐富

棒棒糖圖是直觀顯示蛋白質結構上的突變點**簡單且有效的方式。許多致*基因具有比任何其他基因座更頻繁突變的優(yōu)先位點。這些位點被認為是突變熱點,棒棒糖圖可以用于顯示突變熱點以及其他突變位點。并可以對比不同**/亞型的突變位點。

基本原理

將蛋白質結構根據氨基酸順序繪制為長條形,以不同色塊標注不同結構域,在基因突變導致氨基酸改變的位置標注棒棒糖,并在棒棒糖圓球標注位點的突變頻數以及突變位點。

數據要求

基因突變或者蛋白質突變數據


下游分析

1、突變位點靶向藥物分析

2、驅動基因突變分析 廣東組學實驗數據科學經驗豐富