gpt4 book ai didi

c# - 如何使用 ABCPdf.NET 从 PDF 文件的所有页面中提取文本?

转载 作者:太空狗 更新时间:2023-10-30 00:15:49 25 4
gpt4 key购买 nike

如何使用ABCPdf.NET工具从PDF文件中提取内容文本?

我尝试了 GetText 方法,但没有提取内容:

var doc = new Doc();    

var url = @".../FileName.pdf";

doc.Read(url);

string xmlContents = doc.GetText("Text");
Response.Write(xmlContents);
doc.Clear();
doc.Dispose();

我的 pdf 有将近 1000 个单词,但 GetText 只返回 4-5 个单词。我意识到它只返回第一页的文本。

所以问题应该是“如何从pdf文件的所有页面中提取文本?” -(更改标题以使其更清楚)。

谢谢,

最佳答案

为了您的利益,是的!

 public string ExtractTextsFromAllPages(string pdfFileName)
{
var sb = new StringBuilder();

using (var doc = new Doc())
{
doc.Read(pdfFileName);

for (var currentPageNumber = 1; currentPageNumber <= doc.PageCount; currentPageNumber++)
{
doc.PageNumber = currentPageNumber;
sb.Append(doc.GetText("Text"));
}
}

return sb.ToString();
}

如果您没有 url 但有字节,则:

public string ExtractTextsFromAllPages(Byte[] pdfBytes)
{
var sb = new StringBuilder();

using (var doc = new Doc())
{
doc.Read(pdfBytes);

for (var currentPageNumber = 1; currentPageNumber <= doc.PageCount; currentPageNumber++)
{
doc.PageNumber = currentPageNumber;
sb.Append(doc.GetText("Text"));
}
}

return sb.ToString();
}

关于c# - 如何使用 ABCPdf.NET 从 PDF 文件的所有页面中提取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10995190/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com