gpt4 book ai didi

c# - 无需互操作即可获取 PDF 中的所有单词及其位置

转载 作者:太空宇宙 更新时间:2023-11-03 14:22:04 26 4
gpt4 key购买 nike

我需要使用 C# 代码解析 PDF 并从中提取每个单词以及该单词在文档中的位置。我无法使用互操作,因为它将在 Mono 上运行。

感谢建议!

最佳答案

您可以试试 PDFBox。我相信在下载包 @ http://pdfbox.apache.org/download.html 的构建脚本中有一个选项可以将源代码构建到 .NET dll 中。 .它利用 IKVM(.NET Framework 和 Mono 的 Java 语言实现)为 .NET 框架创建 PDF 库。

您可以使用 PDFBox 将 PDF 转换为文本并获取 x/y 坐标。在 Java @ https://github.com/apache/pdfbox/blob/1.1.x/pdfbox/src/main/java/org/apache/pdfbox/examples/util/PrintTextLocations.java 中已经完成了一个示例.也许它可以在 .NET 版本中完成。但是,我不确定在解析 pdf 时丢失格式是否会产生一些不准确的坐标。

关于c# - 无需互操作即可获取 PDF 中的所有单词及其位置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5080482/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com