快讯
GEPIA2详解(中国智造-肿瘤数据库)
2024-11-13 03:06  浏览:70

记得某一次讲座上,听到北京大学张泽民教授演讲时提到了他们实验室开发的GEPIA(Gene expression Profiling Interactive Analysis),基因表达谱数据动态分析网页工具,不知道为什么获得了几百的引用,毕竟他老人家引以为傲的工作应该是各大癌症的单细胞CNS文章啊! 我这里斗胆猜测一下,我们生信技能树果子3年前的推文: 当居首功!有趣的是,开发这个工具的第一作者唐泽方已经入职IBM,与生物信息学渐行渐远,果子呢,也差不多退出生信技能树,自立门户了,他的果子学生信在一小撮人那边的牌子也很响亮。 三年过去了,GEPIA早就更新到了第二版,很多粉丝后台留言希望我们再介绍一波,但是网页工具的介绍,我的确写不出来,恰好有学徒的学徒投稿,所以加急分享出来! 下面是正文:

GEPIA2详解(中国智造-肿瘤数据库)

图片来源:GEPIA2

作者:李瑞萌

审校:Jimmy

GEPIA2 是北京大学张泽民老师实验室开发的一个网站,能够对TCGA和GTEx项目共9736个肿瘤样本、8587个正常样本的RNA-seq表达数据进行分析。目前该网站已经有两篇文章发表。

参考文献:

Tang, Z. et al. (2017) GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses. Nucleic Acids Res, 10.1093/nar/gkx247.

Tang, Z. et al. (2019) GEPIA2: an enhanced web server for large-scale expression profiling and interactive analysis. Nucleic Acids Res, 10.1093/nar/gkz430.

GEPIA2的两大功能:

expression Analysis

Custom Data Analysis

1

expression Analysis

细分为8个功能

General

Differential Genes

expression DIY

Survival Analysis

Isoform Details

Correlation Analysis

Similar Genes Detection

Dimensionality Reduction

1

General

在搜索框内输入感兴趣的gene symbol或者Ensembl ID,可以得到该gene及其isoform的详细信息,并且以body map、bar plot、dot plot形式表示其在肿瘤样本和正常样本中的表达情况。当然也可以输入Isoform symbol或者Isoform ID。

General

其他7个功能的实现也很简单:输入基因名称(或者isoform、gene signature),选择癌症数据集,设置一些参数,即可得到基因列表或者可视化结果。以‘expression DIY’为例,如下图:

这个网站用起来非常友好,哪里不会点哪里。不理解参数,点击’help‘;忘记肿瘤名称了,点击Cancer name。而点击‘example’,会弹出一个新网页 “Examples for GEPIA2 Usage“;这个网页提供了一些用于可视化的Rscript代码。

2

Differential Genes

在某一肿瘤/正常组织中差异表达的基因或者isoform,并且显示这些基因在染色体上的位置分布。

差异基因在染色体上的位置分布

3

expression DIY

可以画四种图

(1) profile:用dot plot分析一个基因或者isoform在不同肿瘤样本(和正常样本)中的表达情况。

FOXD1基因的表达情况

(2) Box Plot:分析一个基因或者isoform或者a multi-gene signature在不同肿瘤样本和正常样本中的表达情况。也可以对其在某一肿瘤不同亚型中的表达情况进行研究,如下图。

CD163基因在BRCA三种亚型的表达情况

(3) Stage Plot:用violin plot分析一个基因或者isoform在肿瘤不同阶段的表达情况。

(4) Multiple Genes Comparison:用heatmap分析多个基因在不同肿瘤样本(和正常样本)中的表达情况。

4

Survival Analysis

(1) Survival Analysis: 一个基因、isoform或者a multi-gene signature在任意癌症中的OS或者DFS。也可以对其在任意肿瘤不同亚型中的OS或者DFS进行研究。

FOXD1基因在BRCA的OS

(2) Most Differential Survival Genes: 获得在某种癌症中,与生存相关的基因/isoform列表。

(3) Survival Map: 用heatmap表示多个基因或者isoform在多种癌症中的生存分析结果。

The heat map shows the hazard ratios in logarithmic scale (log10) for different genes. The red and blue blocks denote higher and lower risks, respectively. The rectangles with frames mean the significant unfavorable and favorable results in prognostic analyses.

5

Isoform Details

(1) Isoform Usage: 结合violin plot和bar plot,可以找到肿瘤特异性的isoform以及在某一肿瘤类型中发生的isoform 'switch' 事件。

violin plot表示 the expression level (log2(TPM + 1)) of each isoform in a certain gene。

bar plot表示 the isoform usage (from 0% to 100%) distribution。

(2) isoform protein domain structure plots based on the prediction of Pfam.

6

Correlation Analysis

对两个基因、两个isoform或者两个signature在任意肿瘤中的相关性进行分析。

7

Similar Genes Detection

在 "TCGA Tumor", "TCGA Normal" 或者 "GTEx"样本中,搜索具有相似表达特征的基因、isoform或者signature。

8

Dimensionality Reduction

输入要研究的基因列表,选择感兴趣的"TCGA Tumor", "TCGA Normal" 或者 "GTEx"样本集以及其他参数,就会得到2D plot、3D plot以及每个主成分解释方差的比例(bar plot)。

2

Custom Data Analysis

该网站支持用户上传自己的肿瘤RNA-seq数据,以识别molecular subtype, TCGA immune subtype以及pan-cancer subtype。并且,基因和isoform的表达谱数据也可以与TCGA、GTEx数据进行比较。

接下来通过代码重复GEPIA2网站的可视化结果,以Stage plotCorrelation Analysis为例。

01

下载数据并读入R中

(1) 从UCSC xena下载表达量数据和临床信息

首先,下载UCSC Toil RNA-seq Recompute数据。

这个数据包含10535个样本,数据量比较大、耗内存,电脑配置不高的话可能容易死机;文件中的数据是log2(tmp+0.001),使用的注释文件是gencode v23版本。

接着,下载临床信息,后面的分析需要用到“ajcc_pathologic_tumor_stage”等信息。

临床信息

(2) 下载注释文件

注释文件

02

整理表达矩阵

03

可视化

1.Stage plot(小提琴图)

代码运行结果:

PARP1

MMP9

PD1

PDL1

GEPIA2网站结果(与上面的顺序一致):

PARP1

MMP9

PD1

PDL1

2.Correlation Analysis

代码运行结果:

GEPIA2网站结果(与上面结果顺序一致):

比较与总结

1.数据源:TCGA数据有多种下载方式,最开始我重复这些图的时候,使用的数据是从GDC下载的,代码运行的结果与原图有些差异;后来搜到了这个网站,发现它使用的是UCSC xena项目的数据,并且从TCGA文献中收集不同肿瘤亚型的信息。

2.比较GEPIA2网站与'自己写代码' 的可视化结果:它们的p-value、F value等还是有些差异,可能是因为我们的数据不太一样,对基因或者样本的过滤标准也不同。比较奇怪的是,PARP1 vs PD1以及PARP1 vs mmp9的散点图与网站的可视化图形比较相似,但是p-value和R值很不一样;而PARP1 vs PDL1的结果与网站结果比较一致。这个问题先留下,以后再研究研究。

3.我觉得GEPIA2网站使用起来太友好了,哪里不会点哪里,上手特别快。如果你对R语言不太熟悉,推荐使用GEPIA2网站;如果你是生信新手,想写代码得到GEPIA2的可视化结果,推荐看看生信技能树视频,以及参考GEPIA2提供的代码。

4.“使用R语言写代码”可以通过设置一些参数,向图片上添加拟合线或者其他内容;也可以实现count、FPKM与TPM之间的转换并得到相应的可视化结果。但GEPIA2提供的plot参数比较少;并且使用的是TPM值,设置参数时可以选择是否log2(TPM + 1) ,并不提供count、FPKM值的可视化结果。

参考:

    以上就是本篇文章【GEPIA2详解(中国智造-肿瘤数据库)】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/xwnews/282.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 物流园资讯移动站 http://mip.xhstdz.com/ , 查看更多   
最新新闻
2016届基本数据与统计分析
本章将从毕业生规模、深造情况、就业率、就业流向及未就业毕业生情况等方面对2016届毕业生就业基本情况进行统计分析。本报告中
AI简介文案:打造干净短句爱情,个人简介制作,智能文案生成器
AI简介文案:打造干净短句爱情,个人简介制作,智能文案生成器在数字化时代的浪潮中人工智能技术以其独有的魅力和实用性正逐渐改
一甲子多少年
指上坡路难走的诗句励志:1、屈原(先秦)《离骚》:路曼曼其修远兮,吾将上下而求索。译文:前面的道路啊又远又长,我将上上下
微信头脑吃鸡所有答案大全 微信头脑吃鸡题库答案汇总/全部问题答案
许多玩家都很想知道微信头脑吃鸡所有答案大全,所以下面就来为各位讲解微信头脑吃鸡题库答案汇总/全部问题答案,希望可以更好的
大数据平台HDP搭建
Apache Ambari是一个基于Web的支持Apache Hadoop集群的供应、管理和监控的开源工具,Ambari已支持大多数Hadoop组件,包括HDFS、M
SEO排名核心内容,SEO实战之五步走
只有网站综合得分高的才有机会展现在首页!有的时候,你网站没管,排名不知道怎么上来了,可能不是因为你SEO做的多好,而是同行
2024手游热度排行榜 人气较高的手游下载推荐
步入2024年,移动游戏领域迎来了诸多杰出佳作,它们各自以卓越的品质脱颖而出,不少更是跨越至短视频舞台,成为了众多内容创作者
年轻人掀起自造网络新词热潮 专家称不需担忧但须引导
    喜大普奔、十动然拒、不明觉厉、人艰不拆、累觉不爱……你知道这些看似成语的四字词汇是什么意思么?它们是年轻网民们自
抖音哪些作品会限流和降权?为何限流?
大家加入抖音,并且在经营抖音账号的同时,最害怕的就是自己的作品被限流,或者是降权,因为就会大大的降低大家的视频播放率,影
本企业新闻