- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
对于我的博士项目,我正在做一些语料库准备,主要包括清理我的文本文件。我有 170 部荷兰小说的语料库,其中大部分是 epub 格式,我可以使用 Calibre 轻松将其转换为 txt 格式。
问题在于,有些小说是 PDF 格式,其中某些行末尾包含断字符。当我将这些 PDF 文件转换为 txt 时,断词仍然存在。例如:
De reden van alle beroering 是 niet moeilijk te aden。 Adri-aan bleef 甚至 staan bij een gezelschap jongerejaars om te ho-ren welke uitkomst de commentie kreeg。玛尔·特韦尔·希吉·斯通德te luisteren naar meningen over de eager kwestie Nieuw-Gui-nea, overviel hem de herinnering aan een zonovergoten mid-dag 于 1939 年 9 月在 dezelfde hal toen hij 开始,学生 Gene-eskunde 在 Polen besprak 结识了 jaargenoten het zojuist ontketende Duitse of fensief。
我想知道是否有一种快速的方法可以消除这些断词。没有任何在线工具可以做到这一点。我对 python 有点熟悉,所以涉及 python 的解决方案可能会受到欢迎。也许一个想法是使用正则表达式来删除 txt 文件中行末尾的所有“-”字符?
这是我尝试的,使用下面的评论:
import re
with open('pdf_test.txt','r+', encoding='utf-8') as f:
text = f.read()
for line in text:
if line.endswith('-'):
line = re.sub('-',' ',line)
f.seek(0)
f.write(line)
f.truncate()
但是,这不起作用......
最佳答案
我不知道它是否有效,但你可以使用replace
:
text.replace('- ','')
或使用正则表达式
:
import re
with open('pdf_test.txt','r+') as f:
text = f.read()
text = re.sub('- ','',text)
f.seek(0)
f.write(text)
f.truncate()
但这两种方式将替换它们找到的每个此类字符('-'),而不仅仅是在句子末尾。好处是我认为你在普通文本中找不到“-”。
更新
嗯,看到你的评论后,我猜文字看起来像这样:
De reden van alle beroering was niet moeilijk te raden. Adri-
aan bleef even staan bij een gezelschap jongerejaars om te ho-
ren welke uitkomst de discussie kreeg. Maar terwijl hij stond te luisteren naar
meningen over de acute kwestie Nieuw-Gui-
nea, overviel hem de herinnering aan een zonovergoten mid-
dag begin september 1939 in dezelfde hal toen hij, student gene-
eskunde, met jaargenoten het zojuist ontketende Duitse of-
fensief in Polen besprak.
(我编码格式以便能够保持它的格式......)
在这种情况下,如果您只想将每行末尾的所有“-”替换为“”,您可以这样做:
import re
with open('pdf_test.txt','r+') as f:
lines = f.readlines()
f.seek(0)
for line in lines:
if line[-2]=='-':
line = re.sub('-','',line)
f.write(line)
.endswith('-')
在这种情况下也不起作用,因为每行的最后一个字符是 \n
,所以不会有对原始文本的实际更改 - 这就是为什么我使用 line[-2]
来检查“-”字符。
关于python - 将 PDF 转换为文本 : remove word breaks,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40382485/
我正在使用 .remove() 方法删除一个 html 元素,同时对于这个元素,我有一个事件处理程序,但它没有被触发。为什么会这样呢?这是jsFiddle和代码:HTML Delete I'm goi
所以我尝试从另一篇文章中编写此代码: while(fscanf(orderFile," %49[^;];%d; %49[^\n]",fileName,&seconds,timeValue) == 3)
我正在阅读 Nicolai M.Josuttis 撰写的“The C++ STL. A Tutorial and References”一书,在专门介绍 STL 算法的一章中,作者陈述如下:如果你调用
是否有一种简单的机制来确定 DownloadManager remove() 何时完成,因为它看起来是部分异步的。该函数几乎立即返回下载表中已删除的条目计数,但实际的文件系统管理似乎被插入了某个后台线
我愿意: getActionBarToolbar().removeView(logoImage); getActionBarToolbar().addView(logoImage, lp); 我得到:
我有类(class)评论一对多关系。在类(class)表中有 id 和 title 列。在 Review 表中,有 id、comment 和 course_id,其中“course_id”作为指向类(
我在 stackoverflow 上阅读了不同的答案,了解如何销毁 wigdet/jQueryObject 并取消绑定(bind)其上的所有事件。 这就是我的想法。 $('选择器').remove()
我有一个由一个线程填充的 byte[] 列表,然后我有另一个线程正在从该列表中读取并通过网络发送项目。 每次我读取线程 2 中的项目时,我都想将其从内存中清除。但是因为我正在使用线程,如果我使用 .r
就算法而言,从连续数组中删除一组元素可以分两部分有效地完成。 将所有不删除的元素移到数组的前面。 将数组标记得更小。 这可以在 C++ 中使用 erase-remove 习惯用法来完成。 vector
我尝试删除包含在 map 中渲染的制造商的 View 。当我单击按钮时,事件 click .ver 被激活,但没有任何反应,并且我收到以下错误:Uncaught TypeError: undefine
场景: 使用 jQuery 2.0.1 构建的应用程序。 您的团队更喜欢原生 JavaScript。 选项有jQuery .remove()和 ChildNode.remove() . 您需要删除节点
最初我有一个像这样的删除功能: function ViewWorkflowDetail(btn, workflowId) { $("#workflowDetailPanel").remov
我正在编写 C++ 代码来解决 Leetcode 中的这个问题:https://leetcode.com/problems/remove-element/ Given an array nums an
根据太阳, "Iterator.remove is the only safe way to modify a collection during iteration; the behavior is
众所周知,从 std::vector 中完全删除所需项的一种好方法是 erase-remove idiom . 如以上链接中所述(截至本文发布日期),在代码中,erase-remove 习惯用法如下所
我在 HashSet 上调用 Iterator.remove() 时遇到问题。 我有一组带有时间戳的对象。在将新项目添加到集合之前,我会遍历集合,识别该数据对象的旧版本并将其删除(在添加新对象之前)。
这段代码: Collection col = new ArrayList(); col.add("a"); col.add("b"); col.add("c");
我试图通过在下面输入来卸载 conda 环境基础, conda env remove -n base 正如我所建议的那样,我尝试通过使用来停用基地 conda deactivate base 我再次尝
我已经对我的 IOS 应用程序进行了质量扫描分析。我收到以下警告: The binary has Runpath Search Path (@rpath) set. In certain cases
这个问题已经有答案了: Properly removing an Integer from a List (8 个回答) 已关闭 4 年前。 我是java新手。看起来很简单,但我不明白为什么会发生这种
我是一名优秀的程序员,十分优秀!