- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有 bibliography of periodicals 的 OCR 文本包含结构化条目。我想使用 Invisible XML提取和解析条目的标准。
示例输入:
1 2 Hype. 1990?- 1993. Frequency: Bimonthly. River Edge,
NJ. Published by Word Up! Video, Inc. Last issue 66 pages.
Height 28 cm. Line drawings; Photographs (some in color);
Commercial advertising; Table of contents. Previous editor(s):
Marica A. Cole. ISSN 1056-4632. LC card no. sn91-1965.
OCLC no. 23715422. Subject focus and/or Features: Hip hop
culture, Music, Rap music.
WHi v.l, n.6; v.2, n.5 Pam 01-5450 Aug, 1992; Aug, 1993
6561 The Zora Neale Hurston Forum. 1986-. Frequency:
Semiannual. Ruth T. Sheffey, Editor, The Zora Neale Hurston
Forum, P.O. Box 550, Morgan State University, Baltimore,
MD 21239. $15 for individuals and institutions. Telephone:
(301) 444-3435. Published by Zora Neale Hurston Society.
Last issue 69 pages. Last volume 142 pages. Height 23 cm.
Photographs; Table of contents. ISSN 1051-6867. LC card no.
90-649339. OCLC no. 15610848. Subject focus and/or Features: Hurston, Zora Neale, Literature, Literary criticism.
MdBMC v.l, n.l-v.8, n.2 Special Collections Fall, 1986-Spring,
1994
TxDw v.l, n.l; v.2, n.l Woman’s Collection Fall, 1986; Fall, 1987
WU v.l, n.l- AP/Z893/N345 Fall, 1986
6562 Zwanna: Son of Zulu. 1993-. Frequency: Unknown.
Nabile P. Hage, Editor, Zwanna, P.O. Box 38261, Atlanta, GA
30334. Published by Dark Zulu Lies Comics, Inc. Last issue 32
pages. Height 28 cm. Line drawings (some in color); Commercial advertising. OCLC no. 28389961. Subject focus and/or
Features: Comic books, strips, etc.
WHi v.l, n.l Pam 00-305 Apr/May, 1993
每个条目都以条目号开头,后跟一个或多个空白字符,然后是用换行符分隔的描述性文本。
iXML 语法
data: entry+ .
entry: -#a, entrynum, " "+, content .
entrynum: -digit+ .
digit: ["1"-"9"] .
content: ~[]+; -#a+ .
这种对 iXML 语法的初始尝试产生了不明确的解析(使用 CoffeePot iXML processor )。
输出
<data xmlns:ixml="http://invisiblexml.org/NS" ixml:state="ambiguous">
<entry>
<entrynum>1</entrynum>
<content>2 Hype. 1990?- 1993. Frequency: Bimonthly. River Edge, NJ. Published by Word Up! Video,
Inc. Last issue 66 pages. Height 28 cm. Line drawings; Photographs (some in color); Commercial
advertising; Table of contents. Previous editor(s): Marica A. Cole. ISSN 1056-4632. LC card
no. sn91-1965. OCLC no. 23715422. Subject focus and/or Features: Hip hop culture, Music, Rap
music. WHi v.l, n.6; v.2, n.5 Pam 01-5450 Aug, 1992; Aug, 1993 6561 The Zora Neale Hurston
Forum. 1986-. Frequency: Semiannual. Ruth T. Sheffey, Editor, The Zora Neale Hurston Forum,
P.O. Box 550, Morgan State University, Baltimore, MD 21239. $15 for individuals and
institutions. Telephone: (301) 444-3435. Published by Zora Neale Hurston Society. Last issue
69 pages. Last volume 142 pages. Height 23 cm. Photographs; Table of contents. ISSN 1051-6867.
LC card no. 90-649339. OCLC no. 15610848. Subject focus and/or Features: Hurston, Zora Neale,
Literature, Literary criticism. MdBMC v.l, n.l-v.8, n.2 Special Collections Fall, 1986-Spring,
1994 TxDw v.l, n.l; v.2, n.l Woman’s Collection Fall, 1986; Fall, 1987 WU v.l, n.l-
AP/Z893/N345 Fall, 1986</content>
</entry>
<entry>
<entrynum>6562</entrynum>
<content>Zwanna: Son of Zulu. 1993-. Frequency: Unknown. Nabile P. Hage, Editor, Zwanna, P.O.
Box 38261, Atlanta, GA 30334. Published by Dark Zulu Lies Comics, Inc. Last issue 32 pages.
Height 28 cm. Line drawings (some in color); Commercial advertising. OCLC no. 28389961.
Subject focus and/or Features: Comic books, strips, etc. WHi v.l, n.l Pam 00-305 Apr/May, 1993
</content>
</entry>
</data>
首先,我想了解如何对条目进行分块,然后开始解析内容:例如,每个条目编号后跟一个或多个空格,然后是字母数字标题,后跟句点,等
最佳答案
“也许吧。” iXML 的一大优势是它可以处理歧义。这使得语法更容易编写。如果模棱两可的选择同样有效,或者如果您不关心选择了哪个模棱两可的选择,那么它就非常有效。
对于书目数据,我怀疑某些选择比其他选择更有效,而且您确实关心选择了哪个选择,这使得它更难。我还敢打赌,由于 OCR 不完善,因此存在很多的歧义。
我认为单个 iXML 语法不会解析输入并准确生成您想要的输出,但它可能构成更广泛策略的有用部分。我首先尝试将引用书目划分为单独的条目,将语法限制为仅一个条目。然后我可能会看看我是否可以计算出不同类别的条目(书籍、杂志、期刊等),并且可能为每个类别使用不同的语法。
祝你好运!
关于xml - 使用不可见的 XML 从文本中提取记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74104722/
我正在做一个业余爱好项目,使用 Ruby、PHP 或 Java 来抓取 ASP.net 网站的内容。例如,如果网站 url“www.myaspnet.com/home.aspx”。我想从 home.a
如果我有这些字符串: mystrings <- c("X2/D2/F4", "X10/D9/F4", "X3/D22/F4",
我有以下数据集 > head(names$SAMPLE_ID) [1] "Bacteria|Proteobacteria|Gammaproteobacteria|Pseudomonadales|Mor
设置: 3个域类A,B和C。A和B在插件中。 C在依赖于此插件的应用程序中。 class A{ B b static mapping = { b fetch: 'joi
我不知道如何提取 XML 文件中的开始标记元素名称。我很接近〜意味着没有错误,我正在获取标签名称,但我正在获取标签名称加上信息。我得到的是: {http://www.publishing.org}au
我有一个字符串 x <- "Name of the Student? Michael Sneider" 我想从中提取“Michael Sneider”。 我用过: str_extract_all(x,
我有一个如下所示的文本文件: [* content I want *] [ more content ] 我想读取该文件并能够提取我想要的内容。我能做的最好的事情如下,但它会返回 [更多内容] 请注意
假设我有一个项目集合 $collection = array( 'item1' => array( 'post' => $post, 'ca
我正在寻找一种过滤文本文件的方法。我有许多文件夹名称,其中包含许多文本文件,文本文件有几个没有人员,每个人员有 10 个群集/组(我在这里只显示了 3 个)。但是每个组/簇可能包含几个原语(我在这里展
我已经编写了一个从某个网页中提取网址的代码,我面临的问题是它不会以网页上相同的方式提取网址,我的意思是如果该网址位于某些网页中法语,它不会按原样提取它。我该如何解决这个问题? import reque
如何在 C# 中提取 ZipFile?(ZipFile 是包含文件和目录) 最佳答案 为此使用工具。类似于 SharpZip .据我所知 - .NET 不支持开箱即用的 ZIP 文件。 来自 here
我有一个表达: [training_width]:lofmimics 我要提取[]之间的内容,在上面的例子中我要 training_width 我试过以下方法: QRegularExpression
我正在尝试创建一个 Bash 脚本,该脚本将从命令行给出的最后一个参数提取到一个变量中以供其他地方使用。这是我正在处理的脚本: #!/bin/bash # compact - archive and
我正在寻找一个 JavaScript 函数/正则表达式来从 URI 中提取 *.com...(在客户端完成) 它应该适用于以下情况: siphone.com = siphone.com qwr.sip
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
编辑:添加了实际的 JSON 对象和代码以供审查 我有这种格式的 JSON(只是这种层次结构,假设 JSON 正常工作) {u'kind': u'calendar#events', u'default
我已经编写了代码来使用 BeautifulSoup 提取一本书的 url 和标题来自页面。 但它并没有在 > 之间提取惊人的 super 科学故事 1930 年 4 月这本书的名字。和 标签。 如何提
使用 Java,我想提取美元符号 $ 之间的单词。 例如: String = " this is first attribute $color$. this is the second attribu
您好,我正在尝试找到一种方法来确定字符串中的常量,然后提取该常量左侧的一定数量的字符。 例如-我有一个 .txt 文件,在那个文件的某处有数字 00nnn 数字的例子是 00234 00765 ...
php读取zip文件(删除文件,提取文件,增加文件)实例 从zip压缩文件中提取文件 复制代码 代码如下: <?php /* php 从zip压缩文件
我是一名优秀的程序员,十分优秀!