gpt4 book ai didi

c# - 使用 c# 识别从 pdf 文档中提取的文本的段落和/或页面边界

转载 作者:行者123 更新时间:2023-11-30 17:44:39 24 4
gpt4 key购买 nike

我正在开发应用程序,我需要从 pdf 中识别段落。
我需要提取文本并识别段落。
有什么方法可以使用 c# 从 pdf 文档中提取文本并识别提取文本的段落和/或页面边界?

最佳答案

PDF 是一种二进制格式,请尝试使用其中一种格式来读取它:
http://www.pdflib.com/
http://sourceforge.net/projects/itextsharp/

一旦你有流,你应该能够检查
换行符/返回 (\n/\r) 或制表符\t 以查找新段落。

关于c# - 使用 c# 识别从 pdf 文档中提取的文本的段落和/或页面边界,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29247737/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com