gpt4 book ai didi

ruby - 将空格放回具有不可靠空格信息的文本字符串中

转载 作者:太空宇宙 更新时间:2023-11-03 17:28:22 24 4
gpt4 key购买 nike

我需要从 pdf 中解析一些文本,但 pdf 格式导致间距极其不可靠。结果是我必须忽略空格并有连续的非空格字符流。

关于如何通过猜测解析字符串并将空格放回字符串中有什么建议吗?

我正在使用 ruby 。或者我应该说我正在使用 ruby ?

编辑:我已经使用 pdf-reader 提取了文本。有些 pdf 文件格式很好,有些则不是。文本与定位混合的示例:

.7aspe-5.5cts-715.1o0.6f-708.5f-0.4aces-721.4that-716.3are-720.0i-1.8mportant-716.3in-713.9soc-5.5i-1.8alcommunication6.6tion6.3 .-711.6Althoug6.3h-708.1m-1.9od6.3els-709.3o6.4f-702.8f5.4ace-707.9proc6.6essing-708.2haveproposed-611.2ways-615.5to-614.7deal-613.2with-613.0these-613.9diff10 .4erent-613.7tasks,-611.9it-617.1remainsunclear-448.0how-450.7these-443.2mechanisms-451.7might-446.7be-447.7implemented-447.2in-450.3visualOne-418.9model-418.8of-417.3human-4416.4face processing-417.5proposes-422.7that-419.8informa-tion-584.5is-578.0processed-586.1in-583.1specialised-584.7modules-577.0(Breen-584.4et-582.9al.,-582.32002;Bruce-382.1and-384.0Y92. 0oung,-380.21986;-379.2Haxby-379.9et-380.5al.,-

如果我只打印字符串数据(我在每行的末尾添加了回车以防止它弄乱这里的布局:

'面部特征的不同表示和人类时相中的可变方面lobe Timothy J.Andrews* and Michael P.EwbankDepartmentofPsychology, Wolfson Research Institute,UniversityofDurham,UKReceived23December2003;revised26March2004;accepted27July2004Availableonline14October2004Theneural system underlying face perception must represent the unchanging指定身份的面孔特征,以及面孔的可变方面,这有助于社交交流。然而,面部信息在大脑中的表示方式仍然很困难有争议的。在这项研究中,我们使用了 fMR 适应(fMRI 事件的减少遵循重复呈现相同的图像)以了解视觉皮层的不同面部和物体选择性区域如何影响特定方面的感知”

数据由回调吐出,所以如果我打印返回的每个字符串,它看起来像这样:

'那个

-571.3

神经的

-573.7

系统

-577.4

底层

13.9

正在

-577.2

-573.0

百分率

13.7

章节

-574.9

必须

-572.1

代表

20.8

发送

-577.0

不变

14.4

-538.5

特征

16.5

-529.5

-536.6

一个

-531.4

'

在检查中,看起来真正的空间是很大的负数 < -300,而错误的空间是小得多的正数。多谢你们。只是到了我要问的问题的地步,显然帮助我回答了它!

最佳答案

嗯……我不得不说猜测从来都不是一个好主意。看看问题的根本原因并解决这个问题就是答案,其他任何事情都是徒劳的。

如果 PDF 中的间距不可靠,它是如何不可靠的? PDF 查看器需要能够可靠地分隔文本,以便数据就在某处,您只需找到它即可。

编辑以下评论:使用字典解析文件的想法(你唯一的选择,除了随机插入空格并希望最好)和在识别的单词边界插入空格(处理标点符号时的一个真正问题,复数不会改 rebase 本词,即复数等),我相信,这比首先正确解析 PDF 是一个更大的编程挑战。毕竟,PDF定义明确,而英文则有些模糊。

为什么不查看 linux 中 ps2ascii 等现有解决方案的路线,从您的 Ruby 调用该函数并获取结果。

关于ruby - 将空格放回具有不可靠空格信息的文本字符串中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/572737/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com