gpt4 book ai didi

linux - 基于列拆分文本文件

转载 作者:太空宇宙 更新时间:2023-11-04 04:24:47 26 4
gpt4 key购买 nike

所以我有一张发票需要据此进行报告。平均长度约为 250 页。因此,我正在尝试创建一个脚本来提取发票的具体值并生成报告。这是我的问题:

  1. 发票为 PDF 格式,分为两栏。在Linux命令中,我想使用“pdftotext”Linux命令转换为多个文本文件(每个txt文件代表每个pdf页面)。我该怎么做
  2. 我认识到“pdftotext”命令将页面的左侧部分和右侧部分分开,中间有 21 个空格。如何将数据的右侧(连续读取至少 21 个空格后识别)到文件末尾
  3. 由于文件很大,而且我只删除了文件的最后几页,因此如何删除脚本中的所有这些文本文件(不是手动),直到我读取关键字(假设关键字 = Start Invoice)?

我知道这有很多问题,但我对 Linux 命令可以做什么感到困惑。你们能引导我走向正确的方向吗?谢谢

PS:我使用的是CentOS 5.2

最佳答案

关于:

pdftotext YOUR.pdf | sed 's/^\([^ ]\+\) \{21\}.*/\1/' > OUTPUT
pdftotext YOUR.pdf | sed 's/.* \{21\}\(.*\)/\1/' >> OUTPUT

但是您也应该查看 pdftotext-raw-layout 选项。还有更多方法可以做到这一点...

关于linux - 基于列拆分文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10036236/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com