gpt4 book ai didi

c# - 如何从pdf文档中的文本框注释中获取值

转载 作者:太空宇宙 更新时间:2023-11-03 20:17:27 25 4
gpt4 key购买 nike

我有一个pdf文档,里面有两种类型的评论列表:1.长方形2.文本框

enter image description here

我想使用 c# 和 itextsharp 从文本框中获取值。

最佳答案

您所指的文本框和矩形称为注释。注释被定义为字典,它们按页列出。

换句话说:您需要创建一个 PdfReader 实例并从每个页面获取 ANNOTS:

PdfReader reader = new PdfReader("your.pdf");
for (int i = 1; i <= reader.NumberOfPages; i++) {
PdfArray array = reader.GetPageN(i).GetAsArray(PdfName.ANNOTS);
if (array == null) continue;
for (int j = 0; j < array.Size; j++) {
PdfDictionary annot = array.GetAsDict(j);
PdfString text = annot.GetAsString(PdfName.CONTENTS);
...
}
}

在上面的代码示例中,我有一个名为 annotPdfDictionary,我可以从中提取内容。您可能也对其他一些条目感兴趣(例如注释的名称,如果有的话)。请检查 annot 对象中可用的所有 key ,以防 Contents 条目不是您要查找的内容。

用您想对文本做的任何事情替换点。 PdfString 有不同的方法来显示其内容。

免责声明:我是 iText 的原始开发人员(我一直认为人们已经知道这一点,但我曾经被否决,因为我没有添加此免责声明)。

关于c# - 如何从pdf文档中的文本框注释中获取值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15830050/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com