R语言分割GTEx/TCGA-PanCancer数据并批量保存—科研工具箱

请关注公众号【叨客学习资料】 在使用网站的过程中有疑问,请来公众号进行反馈哦

为什么要分割GTEx数据

GTEx数据库(https://gtexportal.org/home/datasets)中有人体各个器官和组织的转录组。之前的有关ACE2教程,都是用这个数据库中的数据完成的。当然数据是开放下载的,Xena研究机构提供了标准化以后的数据(下载链接是https://toil.xenahubs.net/download/gtex_RSEM_gene_tpm.gz, https://toil.xenahubs.net/download/GTEX_phenotype.gz )这个数据下载解压以后有大小有3G+,一般笔记本是无法打开的,用内存大一点的服务器读入也需要一段时间。

教程里使用的是肺组织的数据,那么这个数据是如何分割的呢?

代码

setwd(\"G:\\\\GTEx/split\")

GTEx_phenotype <- read.delim(file=\"G:\\\\GTEx/GTEX_phenotype.gz\",header=T,as.is = T,row.names = 1)
GTEx_Tpm<-read.delim(file=\"G:\\\\GTEx/gtex_RSEM_gene_tpm.gz\",header=T,as.is = T,row.names = 1)
GTEx_phenotype_split<-split(GTEx_phenotype,GTEx_phenotype$X_primary_site)
GTEx_Tpm_split<-list()
colnames(GTEx_Tpm)<-stringr::str_replace_all(colnames(GTEx_Tpm),\"[.]\", \"-\")
GTEx_Tpm_split<-lapply(GTEx_phenotype_split,
                     function(x){
                                 xxxx<-GTEx_Tpm[,colnames(GTEx_Tpm)[colnames(GTEx_Tpm) %in% rownames(x)]]
                                write.csv(xxxx,file=paste(x[2,1],\".csv\",sep=\"\"))})
图片[1]-R语言分割GTEx/TCGA-PanCancer数据并批量保存—科研工具箱-叨客学习资料网
图片[2]-R语言分割GTEx/TCGA-PanCancer数据并批量保存—科研工具箱-叨客学习资料网

就得到了上面这些文件

当然用同样的方法,我们还可以分割泛癌转录组数据

fastSave::load.pigz(file=\"tcga_gtex_tpm.RData\")
TCGAsample_split<-split(XenaSampleClin,XenaSampleClin$Tumor)
TCGA_TpmOS_split<-list()
TCGA_TpmOS_split<-lapply(TCGAsample_split,
function(x){
xxxx<-TCGAxenaExpOS[rownames(x),]
write.csv(xxxx,file=paste(names(x),\".csv\",sep=\"\"))})
图片[3]-R语言分割GTEx/TCGA-PanCancer数据并批量保存—科研工具箱-叨客学习资料网
图片[4]-R语言分割GTEx/TCGA-PanCancer数据并批量保存—科研工具箱-叨客学习资料网

对了,这个泛癌数据是是带有生存时间与生存时间的数据。

素材:

代码不难,用split+lapply就实现了

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
请输入有效评论哦,肆意灌水或者乱打评论是不会通过的,会影响您评论后获得资源哦~~
提交
头像

昵称

取消
昵称表情

    暂无评论内容