「统计GOterm组份」 「质谱gene2giaccession转换数据库」 「冗余基因信息数据库 」「台风 」

今天记录一下这周分析数据时遇到的几个点。不常用的功能,但是用到的时候,需要google比较久,还需要查阅一些资料。

统计GOterm组份

为什么要做这个? 因为GOterm 是富集分析,背景的组成成分是GO联盟已经收集完的,如果想知道这个GO的组成成分是什么的话,可以在对应的数据库中下载,比如MGI提供点击下载某一具体的GO ID,但是有一个问题。每一个GOterm中的基因是否属于其本身,有多重标准。这里有一个点,没有确认,就是各个基因富集分析的网站的算法以及使用的背景是否一致。因为我常用的包是ClusterProfile,因此看过源码,发现它是将所有的不同标准都拿来用了,没有对标准进行过滤。既然已经使用它用来做富集分析,那么我要找背景的组成成分,自然而然,需要与它保持一致。

对于某一具体的ID,可以直接用下面的代码。

library(org.Mm.eg.db)
a <- as.character("GO:0000015")
b <- get(a,org.Mm.egGO2ALLEGS)
c <- unique(b)
write.table(c,"GO:0000015",row.names = F, col.names = F, sep = "\t", quote = F)

质谱gene2giaccession转换数据库

质谱的数据,因为蛋白肽段图谱数据库一直在补充,还远远没有完整,因此蛋白肽段的注释参考数据也在不断更新。protein gi number是蛋白的一个accession number,通常是一个基因ID对应一个蛋白名字,对应多个gi number,并且其中部分gi number会在更新中,被删除。因此,分析数据的时候,最好是保留一致,图谱数据库的公司需要提供相应的肽段注释数据库的版本。当然,现在都是把样本送公司测质谱,有的时候还是多家公司,因此面临的问题就是ID不一致。
ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2accession.gz 提供的NCBI公开的部分信息,但是这个是较新的,如果公司用旧数据库,出现了被删除现象,还是需要手动去WEB上输入查询。

冗余基因信息数据库

基因的ID一般是不会变,NCBI,EMBL也就是美国和欧洲分别对每个基因进行了唯一的ID,用来标注。但是科研的发展一开始是没有信息学的加入的。因此,之前的时代比较的混乱,同一个基因会有多个名字,甚至有的名字还没有收入到这个数据库中,同一个数据库,A课题喜欢用这个名字,B课题组喜欢用那个名字。因此在交叉分析,或者是使用别人的数据的时候会遇到这个问题。需要同一进行转换。https://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/Mammalia/Mus_musculus.gene_info.gz 同样是NCBI这里收入了比较完善的数据库。


前天晚上,台风“黑格比”来到上海,没错就是把阳台吹走的那个台风。
刚好,我回去的比较晚,拍了一些路上的照片与视频。本来准备昨天发的,但是昨天收到“骗保险”的电话,很生气,就忘记了。这里记录一下,不然就真的忘记了。

微信图片_20200806212338.jpg

微信图片_20200806212342.jpg



0
0
0.000
0 comments