- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我需要从 pdf 中解析一些文本,但 pdf 格式导致间距极其不可靠。结果是我必须忽略空格并有连续的非空格字符流。
关于如何通过猜测解析字符串并将空格放回字符串中有什么建议吗?
我正在使用 ruby 。或者我应该说我正在使用 ruby ?
编辑:我已经使用 pdf-reader 提取了文本。有些 pdf 文件格式很好,有些则不是。文本与定位混合的示例:
.7aspe-5.5cts-715.1o0.6f-708.5f-0.4aces-721.4that-716.3are-720.0i-1.8mportant-716.3in-713.9soc-5.5i-1.8alcommunication6.6tion6.3 .-711.6Althoug6.3h-708.1m-1.9od6.3els-709.3o6.4f-702.8f5.4ace-707.9proc6.6essing-708.2haveproposed-611.2ways-615.5to-614.7deal-613.2with-613.0these-613.9diff10 .4erent-613.7tasks,-611.9it-617.1remainsunclear-448.0how-450.7these-443.2mechanisms-451.7might-446.7be-447.7implemented-447.2in-450.3visualOne-418.9model-418.8of-417.3human-4416.4face processing-417.5proposes-422.7that-419.8informa-tion-584.5is-578.0processed-586.1in-583.1specialised-584.7modules-577.0(Breen-584.4et-582.9al.,-582.32002;Bruce-382.1and-384.0Y92. 0oung,-380.21986;-379.2Haxby-379.9et-380.5al.,-
如果我只打印字符串数据(我在每行的末尾添加了回车以防止它弄乱这里的布局:
'面部特征的不同表示和人类时相中的可变方面lobe Timothy J.Andrews* and Michael P.EwbankDepartmentofPsychology, Wolfson Research Institute,UniversityofDurham,UKReceived23December2003;revised26March2004;accepted27July2004Availableonline14October2004Theneural system underlying face perception must represent the unchanging指定身份的面孔特征,以及面孔的可变方面,这有助于社交交流。然而,面部信息在大脑中的表示方式仍然很困难有争议的。在这项研究中,我们使用了 fMR 适应(fMRI 事件的减少遵循重复呈现相同的图像)以了解视觉皮层的不同面部和物体选择性区域如何影响特定方面的感知”
数据由回调吐出,所以如果我打印返回的每个字符串,它看起来像这样:
'那个
-571.3
神经的
-573.7
系统
-577.4
底层
13.9
正在
-577.2
脸
-573.0
百分率
13.7
章节
-574.9
必须
-572.1
代表
20.8
发送
-577.0
不变
14.4
克
-538.5
特征
16.5
是
-529.5
的
-536.6
一个
-531.4
脸
'
在检查中,看起来真正的空间是很大的负数 < -300,而错误的空间是小得多的正数。多谢你们。只是到了我要问的问题的地步,显然帮助我回答了它!
最佳答案
嗯……我不得不说猜测从来都不是一个好主意。看看问题的根本原因并解决这个问题就是答案,其他任何事情都是徒劳的。
如果 PDF 中的间距不可靠,它是如何不可靠的? PDF 查看器需要能够可靠地分隔文本,以便数据就在某处,您只需找到它即可。
编辑以下评论:使用字典解析文件的想法(你唯一的选择,除了随机插入空格并希望最好)和在识别的单词边界插入空格(处理标点符号时的一个真正问题,复数不会改 rebase 本词,即复数等),我相信,这比首先正确解析 PDF 是一个更大的编程挑战。毕竟,PDF定义明确,而英文则有些模糊。
为什么不查看 linux 中 ps2ascii 等现有解决方案的路线,从您的 Ruby 调用该函数并获取结果。
关于ruby - 将空格放回具有不可靠空格信息的文本字符串中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/572737/
我有这个代码来查找这个模式:201409250200131738007947036000 - 1,在文本内 final String patternStr = "(\\d{
我正在尝试使用正则表达式清除一些用户输入,以删除 [ 和 ] 并删除任何大于 1 个空格的空格。但我似乎无法实现我想要的效果。这是我第一次使用正则表达式,所以我对如何写出来有点困惑。 (preg_re
我正在尝试构建这个简单的正则表达式来匹配 Java 中的单词+空格,但我在尝试解决它时感到困惑。该网站上有很多类似的示例,但答案大多给出了正则表达式本身,而没有解释它是如何构造的。 我正在寻找的是形成
好吧,我已经阅读了很多建议如何消除多余空间的帖子,但无论出于何种原因,我似乎无法将这些建议应用到我的系统中,所以我在这里寻求您的帮助。 这些是我代码的最后几行: for line in rli
所以我正在我的测试存储上学习网页抓取,但我不确定如何正确地从“sizes”数组中删除空的新行。 const $ = cheerio.load(body) $('div.lis
这个问题已经有答案了: How to prevent invalid characters from being typed into input fields (8 个回答) 已关闭 9 年前。 是
有人知道如何让扫描仪忽略空间吗?我想输入名字和第二个名字,但扫描仪不让我输入,我想保存全名 String name; System.out.print("Enter name: "); name =
这个问题在这里已经有了答案: Make Vim show ALL white spaces as a character (23 个回答) 关闭 8 年前。 VIM(使用 Solarized Dar
我想使用 StreamTokenizer 从 java 文件中提取名称。我已将空格设置为逗号 inputTokenizer.whitespaceChars(',', ','); 但是,
我正在使用此代码逐行读取 txt 文件。 // Open the file that is the first command line parameter FileInputStream fstre
我似乎无法弄清楚我需要的正则表达式。这就是我想要实现的目标: {ANY CHAR} + @javax.persistence.Column(name = "{ANY 30 CHARS}") + {AN
我正在运行 StyleCop(顺便说一句,如果你想提供高质量的代码,我完全推荐它)... 我有这条线 [System.Xml.Serialization.XmlRootAttribute(Namesp
我刚刚更新到 PhpStorm 2016,我突然注意到,每次我按 Ctrl + S 保存文件时,它都会删除我在测试这段代码后按下以继续编写的空格/制表符。 请帮忙,这对我来说很烦人,因为我在每一行代码
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 7 年前。 Improve th
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求提供代码的问题必须表现出对所解决问题的最低限度的了解。包括尝试的解决方案、为什么它们不起作用以及预期结果
我已经看过几十个关于这个主题的问题和答案,但我仍然无法解决我的问题。 我在我的代码中使用了一个外部 ffmpeg 转换器,我将文件路径作为参数传递,如下所示: OutputPackage oo = c
谁能详细解释一下它们是什么以及它们之间的区别。提前致谢。 最佳答案 转义序列是代表其他内容的字符序列。例如(“\n” = 新行,“\?” = 问号等)。有关更详细的列表,请检查:https://en.
我无法从我的 javascript 文本中删除换行符。这是我正在处理的数据示例: 0: "Christian Pulisic" 1: "↵" 2: "From Wikipedia, the free
我有一个问题 - 我似乎无法从字符串的开头/结尾删除新行/空格。我在正则表达式的开头和结尾使用 \s ,甚至在获取字符串后使用 .trim() ,但无济于事。 public void extractI
我是 php 的新手,我正在尝试将一系列变量添加到 html 超链接中。但是,任何返回空格的变量都会弄乱超链接。 Grants Test
我是一名优秀的程序员,十分优秀!