楼主 | 收藏 | 举报 2019-01-21 00:00   浏览:102   回复:0

对应不同版本基因名称

 

在做生物信息分析的时候经常会遇到一种尴尬的问题就是不同来源或者版本的注释文件里面,基因名称不一致。譬如P53,其实它的标准名称为TP53。CXCR4的曾用名有一堆,CD184, D2S201E, FB22, HM89, HSY3RR, LAP-3, LAP3, LCR1, LESTR, NPY3R, NPYR, NPYRL, NPYY3R, WHIM, WHIMS。那有没有办法可以批量查找和对应各种基因的曾用名或者旧版本的名称呢?答案是有的。

下面有几种方法或者来源的数据可以解决这个问题。

方法一:使用homer数据

安装homer之后在它的安装目录下面会有data/accession这个目录,里面human2gene.tsv和human.description就是人的各种基因的名称对应表。mouse2gene.tsv和mouse.description是小鼠的各种历史版本的基因对应表。

方法二:NCBI数据

从ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/ 这里可以下载个物种的基因信息。

譬如:

人的所有基因信息:

ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/Mammalia/Homo_sapiens.gene_info.gz

小鼠的所有基因信息:

ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/Mammalia/Mus_musculus.gene_info.gz

方法三:各种标准数据库

例如:人可以使用HGNC这个数据库,他的全称HUGO Gene Nomenclature Committee。访问这里https://www.genenames.org/download/custom/,来选择自己关心的信息。或者来这个地方https://www.genenames.org/download/statistics-and-files/下载所有你需要的信息。

小鼠的相关信息可以来MGI下载,具体可以自己探索一下:http://www.informatics.jax.org/mgihome/nomen/

打赏
网站首页 | 关于我们 | 联系方式 | 使用协议 | 版权隐私 | 网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报
 
免责声明:本站有部分内容来自互联网,如无意中侵犯了某个媒体 、公司 、企业或个人等的知识产权,请来电或致函告之,本网站将在规定时间内给予删除等相关处理。