- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我需要从 OBO 文件中提取信息。
我需要的是从 xref
行获取每个术语 id
的信息。对于 13.000 个术语 aprox,文件中的信息如下所示:
[Term]
id: HP:0011540
name: Congenitally corrected transposition of the great arteries
def: "The essence of the lesion is the combination of discordant atrioventricular and ventriculo-arterial connections. Thus, the morphologically right atrium is connected to a morphologically left ventricle across the mitral valve, with the left ventricle then connected to the pulmonary trunk. The morphologically left atrium is connected to the morphologically right ventricle across the tricuspid valve, with the morphologically right ventricle connected to the aorta." [DDD:dbrown, pmid:21569592]
synonym: "L-transposition" RELATED []
synonym: "Ventricular inversion" RELATED []
xref: EPCC:01.01.03
xref: ICD-10:Q20.5
xref: MSH:C535426
xref: SNOMEDCT_US:56743000
xref: SNOMEDCT_US:83799000
xref: UMLS:C0232301
xref: UMLS:C0344616
is_a: HP:0011534 ! Abnormal spatial orientation of the cardiac segments
is_a: HP:0011603 ! Congenital malformation of the great arteries
created_by: peter
creation_date: 2012-04-07T10:48:56Z
[Term]
id: HP:0011555
name: Double inlet left ventricle
def: "The condition in which both atria are joined to the left ventricle each by its own atrioventricular valve. Usually there is a hypoplastic right ventricle, which may be on the opposite side of the heart as usual." [DDD:dbrown, HPO:probinson]
xref: EPCC:01.04.04
xref: ICD-10:Q20.4
xref: SNOMEDCT_US:253283000
xref: UMLS:C0344622
is_a: HP:0001750 ! Single ventricle
is_a: HP:0011554 ! Double inlet atrioventricular connection
created_by: peter
creation_date: 2012-04-07T11:53:33Z
[Term]
id: HP:0011589
name: Common origin of the right brachiocephalic artery and left common carotid artery
def: "The left common carotid artery has a common origin with the innominate artery." [DDD:dbrown, HPO:probinson, pmid:17138027]
comment: Commonly the three great vessels (innominate artery, left common carotid artery, and the left subclavian artery) originate from the arch of the aorta. The second most common variant of aortic arch branching occurs when the left common carotid artery has a common origin with the innominate artery.
synonym: "Bovine arch" RELATED []
synonym: "Common brachiocephalic trunk" EXACT []
synonym: "Ovine arch" RELATED []
xref: SNOMEDCT_US:460890003
xref: UMLS:C3532020
xref: UMLS:C4020746
xref: UMLS:C4021141
is_a: HP:0011587 ! Abnormal branching pattern of the aortic arch
created_by: peter
creation_date: 2012-04-08T01:38:36Z
结果在 txt 或 xlsx 格式中应如下所示:
id UMLS SNOMEDCT_US MSH EPCC ICD-10 ICD-9 ICD-O Fyler MEDDRA
HP:0011540 C0232301;C0344616 56743000;83799000 C535426 01.01.03 Q20.5
HP:0011555 C0344622 253283000 01.04.04 Q20.4
HP:0011589 C3532020;C4020746;C4021141 460890003
header (UMLS、SNOMEDCT_US、MSH、MEDDRA...)都是可能的外部参照。
最佳答案
这是一种使用 ontologyIndex
和 tidyverse
的方法:
library(tidyverse)
library(ontologyIndex)
hpo <- get_ontology("https://raw.githubusercontent.com/obophenotype/human-phenotype-ontology/master/hp.obo",
extract_tags = "everything") #Download HPO file from GitHub and import
simplify2array(hpo) %>% #Convert to array
as_tibble() %>% #Convert to tibble
select(id,xref) %>% #select HPO ID and xref
unnest(c(id,xref)) %>% #unnest list columns
separate(xref, into = c("Ontology","Term"), sep = ":") %>% #separate ontology from code
pivot_wider(id_cols = id, names_from = "Ontology",
values_from = Term,
values_fn = \(x)paste(x,collapse = ";")) #pivot wider and combine terms with paste
## A tibble: 11,652 x 22
# id UMLS MSH SNOMEDCT_US MEDDRA Fyler NCIT COHD EFO ICD10 ICD9 `ICD-10` EPCC DOID MONDO `ICD-O` MP MPATH PMID ORPHA SNOMED_CT `ICD-9`
# <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
# 1 HP:0000001 C0444868 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
# 2 HP:0000002 C4025901 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
# 3 HP:0000003 C3714581 D021782 204962002;82525005 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
# 4 HP:0000005 C1708511 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
# 5 HP:0000006 C0443147 NA 263681008 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
# 6 HP:0000007 C0441748;C4020899 NA 258211005 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
# 7 HP:0000008 C4025900 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
# 8 HP:0000009 C3806583 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
# 9 HP:0000010 C0262655 NA 197927001 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
#10 HP:0000011 C0005697 D001750 397732007;398064005 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
从这里您可以使用 write.table()
或 write_delim()
写出结果。
关于r - 解析 HPO obo 文件以提取外部参照,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52254298/
我正在做一个业余爱好项目,使用 Ruby、PHP 或 Java 来抓取 ASP.net 网站的内容。例如,如果网站 url“www.myaspnet.com/home.aspx”。我想从 home.a
如果我有这些字符串: mystrings <- c("X2/D2/F4", "X10/D9/F4", "X3/D22/F4",
我有以下数据集 > head(names$SAMPLE_ID) [1] "Bacteria|Proteobacteria|Gammaproteobacteria|Pseudomonadales|Mor
设置: 3个域类A,B和C。A和B在插件中。 C在依赖于此插件的应用程序中。 class A{ B b static mapping = { b fetch: 'joi
我不知道如何提取 XML 文件中的开始标记元素名称。我很接近〜意味着没有错误,我正在获取标签名称,但我正在获取标签名称加上信息。我得到的是: {http://www.publishing.org}au
我有一个字符串 x <- "Name of the Student? Michael Sneider" 我想从中提取“Michael Sneider”。 我用过: str_extract_all(x,
我有一个如下所示的文本文件: [* content I want *] [ more content ] 我想读取该文件并能够提取我想要的内容。我能做的最好的事情如下,但它会返回 [更多内容] 请注意
假设我有一个项目集合 $collection = array( 'item1' => array( 'post' => $post, 'ca
我正在寻找一种过滤文本文件的方法。我有许多文件夹名称,其中包含许多文本文件,文本文件有几个没有人员,每个人员有 10 个群集/组(我在这里只显示了 3 个)。但是每个组/簇可能包含几个原语(我在这里展
我已经编写了一个从某个网页中提取网址的代码,我面临的问题是它不会以网页上相同的方式提取网址,我的意思是如果该网址位于某些网页中法语,它不会按原样提取它。我该如何解决这个问题? import reque
如何在 C# 中提取 ZipFile?(ZipFile 是包含文件和目录) 最佳答案 为此使用工具。类似于 SharpZip .据我所知 - .NET 不支持开箱即用的 ZIP 文件。 来自 here
我有一个表达: [training_width]:lofmimics 我要提取[]之间的内容,在上面的例子中我要 training_width 我试过以下方法: QRegularExpression
我正在尝试创建一个 Bash 脚本,该脚本将从命令行给出的最后一个参数提取到一个变量中以供其他地方使用。这是我正在处理的脚本: #!/bin/bash # compact - archive and
我正在寻找一个 JavaScript 函数/正则表达式来从 URI 中提取 *.com...(在客户端完成) 它应该适用于以下情况: siphone.com = siphone.com qwr.sip
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
编辑:添加了实际的 JSON 对象和代码以供审查 我有这种格式的 JSON(只是这种层次结构,假设 JSON 正常工作) {u'kind': u'calendar#events', u'default
我已经编写了代码来使用 BeautifulSoup 提取一本书的 url 和标题来自页面。 但它并没有在 > 之间提取惊人的 super 科学故事 1930 年 4 月这本书的名字。和 标签。 如何提
使用 Java,我想提取美元符号 $ 之间的单词。 例如: String = " this is first attribute $color$. this is the second attribu
您好,我正在尝试找到一种方法来确定字符串中的常量,然后提取该常量左侧的一定数量的字符。 例如-我有一个 .txt 文件,在那个文件的某处有数字 00nnn 数字的例子是 00234 00765 ...
php读取zip文件(删除文件,提取文件,增加文件)实例 从zip压缩文件中提取文件 复制代码 代码如下: <?php /* php 从zip压缩文件
我是一名优秀的程序员,十分优秀!