gpt4 book ai didi

pdf - 您将如何计算给定 PDF 中给定单词的数量?

转载 作者:行者123 更新时间:2023-12-04 18:49:03 25 4
gpt4 key购买 nike

面试题

我在一次采访中被问到这个问题,答案不一定是特定的编程语言、特定于平台或工具。

问题表述如下:

您将如何获得 PDF 中给定单词的实例数。答案不一定是特定于编程、平台或工具的。请让我知道您将如何以高效的内存和速度进行操作

我发布这个问题的原因如下:

  • 为了更好地理解上下文 - 我仍然无法理解这个问题的上下文,面试官问这个问题可能会寻找什么?
  • 为了获得不同的意见 - 我倾向于根据我在编程语言 (C#) 上的技能来回答这些问题,但可能还有其他有效的选择来完成这项工作。

  • 谢谢你的关注。

    最佳答案

    如果我必须编写一个程序来执行此操作,我会找到一个能够从 PDF 文件中提取文本的 PDF 渲染库,例如 Xpdf然后数字。
    如果这是一项任务或需要为非生产质量任务自动化的任务,我只需将文件输入 pdftotext 程序,然后用 python 解析输出文件,拆分成单词,将它们放入一个字典并计算出现次数。

    如果我问这个面试问题,我会寻找一些东西:

  • 了解此任务的设置之间的区别:
    一次性脚本与生产代码
  • 不试图
    实现自己呈现的 PDF 并试图找到一个库
    反而。

  • 现在我不会期望任何没有 PDF 经验的随机候选人会出现这种情况,但是您可以就什么是 PDF 以及什么是“单词”进行非常有意义的讨论。你看,PDF 将文本存储为一串带有坐标的字符串。每个字符串不一定是一个词。很多时候,单词会被分成几个完全独立的字符串,这些字符串在文档中绝对定位以形成一个单词。这就是为什么有时在 PDF 文档中搜索单词时会得到奇怪的结果。因此,要在文档中实现单词搜索,您必须将这些字符串重新粘在一起(pdftotext 会为您处理)。

    这根本不是一个坏问题。

    关于pdf - 您将如何计算给定 PDF 中给定单词的数量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8981804/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com