关于metagenomics KEGG注释的时候如何去除真核结果

in HIVE CN 中文社区last year (edited)

dna-3539309_1280.jpg
(图源:pixabay)

今天师妹问了我这个问题,思考之后,总结如下:

方法 1:

“All high-quality reads were aligned with Bowtie2 to the KEGG database 2014 (59), from which sequences of eukaryotes were excluded”
Zhaoliping 老师Gut bacteria selectively promoted by dietary fibers alleviate type 2 diabetes文章中是这么做的。

但是,我们没有KEGG数据库,这个数据库需要购买 ,我找了一下,没有找到可以直接下载每一个KO对应的蛋白/核酸序列信息。
所以替代方法是,将蛋白序列(特别是能够比对到KO的序列)放到NCBI-BLASTP中比对nr数据库,它会得到比对到物种的信息。我们看这段序列比对到了什么 Eukaryotes 还是 Prokaryotes ,或者是两者都有。这样就间接判定了这段蛋白序列对应的KO是Prokaryotes还是Eukaryotes。

方法 2:

不通过比对得到。直接通过数据库中的信息,得到哪些pathway是Prokaryotes,哪些是Eukaryotes,哪些是两者共有。在目前的注释结果中删除Eukaryotes特有即可。(直接删除可能需要在富集分析前就删除,即删除后,再做富集分析。)

方法是利用KEGG的API得到我们想要的数据。
首先,http://rest.kegg.jp/list/organism 可以得到KEGG中收入的所有物种信息(包括是Eukaryotes或是Prokaryotes),然后,下载每一个物种对应含有的pathway ,如:http://rest.kegg.jp/list/pathway/T05351 最后,合并Prokaryotes的所有pathway,并去冗余。Eukaryotes,同样处理。取交集,得到overlap pathway。

Sort:  

Congratulations @jywahaha! You have completed the following achievement on the Hive blockchain and have been rewarded with new badge(s) :

You received more than 700 upvotes. Your next target is to reach 800 upvotes.

You can view your badges on your board And compare to others on the Ranking
If you no longer want to receive notifications, reply to this comment with the word STOP

To support your work, I also upvoted your post!

Support the HiveBuzz project. Vote for our proposal!