- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这更多是算法问题,而不是特定的语言问题,因此我很高兴收到任何语言的答案-甚至是伪代码,甚至只是一个想法。
这是我的问题:我需要处理来自PDF文章的大量论文,这些论文被残酷地复制/粘贴到.txt中。对于3.5 GB或文本(我使用的语料库是ACL Antology网络http://clair.si.umich.edu/clair/aan/DatasetContents.html),我仅有大约16k篇论文的可憎结果。
“垃圾”来自公式,图像,表格等。它只是在正在运行的文本中间弹出,所以我不能使用正则表达式来清理它,也无法想到使用机器学习的任何方法。我已经花了一个星期的时间,然后决定继续进行快速&肮脏的修复。我不在乎完全清除它,我不在乎假阴性和阳性,只要删除了大部分此文本区域即可。
文本的一些示例:请注意,公式包含垃圾字符,但表格和标题则没有(但是它们仍然使我的句子很长,因此无法解析)。粗体显示为垃圾。
简单的一个:
The experiments were repeated while inhibiting specialization of first the scheme with the most expansions, and then the two most expanded schemata. Measures of coverage and speedup are important 1 As long as we are interested in preserving the f-structure assigned to sentences, this notion of coverage is stricter than necessary. The same f-structure can in fact be assigned by more than one parse, so that in some cases a sentence is considered out of coverage even if the specialized grammar assigns to it the correct f-structure. 2'VPv' and 'VPverb[main]' cover VPs headed by a main verb. 'NPadj' covers NPs with adjectives attached. 205 The original rule: l/Pperfp --+ ADVP* SE (t ADJUNCT) ($ ADV_TYPE) = t,padv ~/r { @M_Head_Perfp I@M_Head_Passp } @( Anaph_Ctrl $) { AD VP+ SE ('~ ADJUNCT) ($ ADV_TYPE) = vpadv is replaced by the following: ADVP,[.E (~ ADJUNCT) (.l. ADV_TYPE) = vpadv l/'Pperfp --+ @PPadjunct @PPcase_obl {@M.Head_Pevfp [@M..Head_Passp} @( Anaph_Ctrl ~ ) V { @M_Head_Perfp I@M_Head_Passp } @( Anaph_Ctrl ~) Figure 1: The pruning of a rule from the actual French grammar. The "*" and the "+" signs have the usual interpretation as in regular expressions. A sub-expression enclosed in parenthesis is optional. Alternative sub-expressions are enclosed in curly brackets and separated by the "[" sign. An "@" followed by an identifier is a macro expansion operator, and is eventually replaced by further functional descriptions. Corpus --.. ,, 0.1[ Disambiguated Treebank treebank Human expert Grammar specialization Specialized grammar Figure 2: The setting for our experiments on grammar specialization. indicators of what can be achieved with this form of grammar pruning. However, they could potentially be misleading, since failure times for uncovered sentences might be considerably lower than their sentences times, had they not been out of coverage.
Table 4 summarizes the precision results for both English and Romanian coreference. The results indicate that the English coreference is more indicate than the Romanian coreference, but SNIZZLE improves coreference resolution in both languages. There were 64% cases when the English coreference was resolved by a heuristic with higher priority than the corresponding heuristic for the Romanian counterpart. This result explains why there is better precision enhancement for English Romanian SWIZZLE on English SWIZZLE on Romanian Nominal Pronominal 73% 89% 66% 78% 76% 93% 71°/o 82% Table 4: Coreference precision Total 84% 72% 87% 76% English Romanian SWIZZLE on English SWIZZLE on Romanian Nominal 69% 63% 66% 61% Pronominal Total 89% 78% 83% 72% 87% 77% 80% 70% Table 5: Coreference recall the English coreference. Table 5 also illustrates the recall results. The advantage of the data-driven coreference resolution over other methods is based on its better recall performance. This is explained by the fact that this method captures a larger variety of coreference patterns. Even though other coreference resolution systems perform better for some specific forms of systems, their recall results are surpassed by the systems approach. Multilingual coreference in turn improves more the precision than the recall of the monolingual data-driven coreference systems. In addition, Table 5 shows that the English coref- erence results in better recall than Romanian coref- erence. However, the recall shows a decrease for both languages for SNIZZLE because imprecise coreference links are deleted. As is usually the case, deleting data lowers the recall. All results were obtained by using the automatic scorer program developed for the MUC evaluations.
最佳答案
(我讨厌糟糕的复制和粘贴。)
很少有您觉得有用的想法(在那一点或另一点我自己使用了其中的每一个)
关于language-agnostic - 来自PDF的纯净文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10416077/
在嵌入式系统编程的上下文中是否存在普遍差异? 最佳答案 这些不是正式的术语,所以这是相当主观的。 迁移意味着将您的代码库移动到另一个系统(无意返回)。这也可能意味着切换到另一个工具链或编程语言。 移植
听说任何递归算法都可以用栈来表示。最近,我一直在一个可用调用堆栈非常小的环境中编写程序。 我需要做一些深度递归,所以我想知道如何重新设计任何递归算法以使用显式堆栈。 例如,假设我有这样一个递归函数 f
这个问题与语言无关,但受到这些 c/c++ 问题的启发。 How to convert a single char into an int Char to int conversion in C 假设
我最接近汇编的是构建我自己的 Java 类库,它加载类文件并允许您创建、编译和反编译类。在努力完成这个项目时,我想知道 Java 虚拟机实际上是如何在 JIT 优化期间在运行时生成 native 机器
如标题所说的简单问题。我在 StackOverflow(和互联网)上看到了一些关于半字节用例的问题,但我不明白为什么我们需要使用半字节。我的意思是字节是计算中最小的内存单位,因此对它执行操作来操作它的
这真是一个详细的格式问题,但我每次都被它绊倒...... 对于多行条件表达式,逻辑运算符的首选位置是什么? 备选方案 1:每行末尾的逻辑运算符 if (value1 == comparision1 &
计算“2021-01-01 12:56:23.423 UTC”和“2001-01-01 00:00:00.000 UTC”之间的 SI 秒数” 为例。 最佳答案 C++20 可以用下面的语法来完成:
我正在读一本名为“干净的代码”的书,当作者试图讲述我们如何编写一个高效的函数时卡住了。他说,“为了确保我们的函数做”一件事, “我们需要确保我们函数中的语句都处于同一抽象级别”。那么作者究竟想通过抽象
我的网站上有一张相当大的图片(大约 200kb)。我没有计划在不久的将来改变它。我如何告诉浏览器缓存它? 最佳答案 设置正确的标题对您有很大帮助。 过期时间:2012 年 4 月 15 日星期四 20
一般来说,重构工具的优缺点是什么? 最佳答案 优势 如果工具对您有帮助,您更有可能进行重构。 一个工具更有可能在第一次正确地进行“重命名”类型重构。 一个工具可以让您在代码库上进行重构,而无需手动进行
当我第一次开始自学编程时,在完成教程后,我会觉得我仍然无法用语言做任何事情。所以,我环顾四周,想找点事情做。由于我刚刚学习了一些基础知识,因此查找、阅读和添加到一个开源项目中所涉及的工作量似乎是无法克
在我工作的公司,最近要求所有“高度可见”的 bool 逻辑必须以析取范式表示。 例如(尽管这个概念与语言无关), #if (defined(A) || defined( B )) || (define
我想知道我们如何在 mathematica 中设计一个魔方。这可能吗?我们如何使用它。我们如何决定立方体的 6 个面上的较小立方体的不同分隔。 最佳答案 您问的是如何定义数据结构。您的选择是任意的,只
对于具有系统托盘图标的应用程序的行为方式,是否有任何标准? 我最近编写了一个应用程序,它大部分时间都位于系统托盘中。我把它交给了一个 friend ,她的第一 react 是双击图标进入主窗口(工作正
一个商业可分发软件的文本长度和/或音频片段长度是多少才能通过合理使用的阈值并侵犯所包含作品的版权?归属是否可以免除开发者的侵权行为?一个例子是在启动屏幕上使用的小说中的引用。 最佳答案 不幸的是,没有
我是一名经验丰富的 C/C++/C#/Objective-C 桌面、Web 和移动程序员,我已经习惯于从头开始构建我的大部分软件。我已经使用 ASP.NET 从头开始构建了我的所有网站。对于我想测
我一直在阅读有关使用矩阵转换 Vector3 的内容,并且正在努力深入研究数学并自己编写代码而不是使用现有代码。无论出于何种原因,我的学校类(class)从未包括矩阵,所以我正在填补我的知识空白。谢天
所以我目前正在尝试掌握递归的概念,我理解我遇到的大部分问题,但我觉得它的使用似乎不适用于太多计算问题。不过,这只是一个新手的假设,所以我问,作为程序员,递归有很多实际用途吗?还有,用它可以解决哪些典型
我正在学习递归。我已经使用递归解决了一些其他问题,例如创建二叉树、汉诺塔等。所以,我明白什么是递归,但我发现自己很难规划和实现正确的递归解决方案。 是否有任何关于规划、思考或实现问题递归解决方案的一般
每次我需要移动到一台新机器,或者买一台笔记本电脑,或者通过不断的安装和卸载搞砸我的注册表时,我开始变得非常厌烦和厌倦设置我的所有开发工具。 这么新的计划。我听说有人虚拟化他们的开发环境,这听起来是个好
我是一名优秀的程序员,十分优秀!