作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试查找带有基因名和染色体位置的gene_info 文件。但是,我似乎无法在 NCBI FTP 站点上找到它。谁能给我指点?
最佳答案
见:ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/README有关 NCBI ftp 站点上哪些文件的详细信息。
如果您想从 NCBI 本身获取数据,您将需要组合多个文件,可能是一个gene2accession(还包括位置信息)和一个将ids映射到符号和名称等的gene_info文件。
访问 UCSC 站点获取此信息可能更方便,如果您想探索可用的信息,它们还提供公共(public) mysql 数据库:
http://workshops.arl.arizona.edu/sql1/sql_workshop/mysql/mysqlclient.html
如果您只需要人类、小鼠或大鼠数据,那么 Rat Genome Database已经编译了您想要的数据(来自 NCBI 和 Ensembl 来源的新数据):
ftp://rgd.mcw.edu/pub/data_release
例如对于人类数据,请查看:ftp://rgd.mcw.edu/pub/data_release/GENES_HUMAN.txt
关于bioinformatics - NCBI基因数据库问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5851365/
以下问题专门针对生物技术应用,但可以说明其他领域类似问题的一般原则。这是一个 NP 难问题,可能与旅行商问题有关,我很好奇可以使用哪些算法来得出解决方案。 生物背景简介:蛋白质由 20 种氨基酸组成。
我是一名优秀的程序员,十分优秀!