c# - 如何使用 iTextSharp 获取文本格式-6ren

c# - 如何使用 iTextSharp 获取文本格式

转载作者：IT王子更新时间：2023-10-29 04:37:47

我正在使用 iTextSharp 从 PDF 中读取文本内容。我也能读懂。但是我丢失了文本格式，如字体、颜色等。有什么方法也可以获得这种格式。

下面是我用来精确文本的代码段 -

PdfReader reader = new PdfReader("F:\\EBooks\\AspectsOfAjax.pdf");
textBox1.Text = ExtractTextFromPDFBytes(reader.GetPageContent(1));

private string ExtractTextFromPDFBytes(byte[] input)
{
    if (input == null || input.Length == 0) return "";
    try
    {
        string resultString = "";
        // Flag showing if we are we currently inside a text object
        bool inTextObject = false;
        // Flag showing if the next character is literal  e.g. '\\' to get a '\' character or '\(' to get '('
        bool nextLiteral = false;
        // () Bracket nesting level. Text appears inside ()
        int bracketDepth = 0;
        // Keep previous chars to get extract numbers etc.:
        char[] previousCharacters = new char[_numberOfCharsToKeep];
        for (int j = 0; j < _numberOfCharsToKeep; j++) previousCharacters[j] = ' ';
        for (int i = 0; i < input.Length; i++)
        {
            char c = (char)input[i];
            if (inTextObject)
            {
                // Position the text
                if (bracketDepth == 0)
                {
                    if (CheckToken(new string[] { "TD", "Td" }, previousCharacters))
                    {
                        resultString += "\n\r";
                    }
                    else
                    {
                        if (CheckToken(new string[] {"'", "T*", "\""}, previousCharacters))
                        {
                            resultString += "\n";
                        }
                        else
                        {
                            if (CheckToken(new string[] { "Tj" }, previousCharacters))
                            {
                                resultString += " ";
                            }
                        }
                    }
                }
                // End of a text object, also go to a new line.
                if (bracketDepth == 0 && CheckToken( new string[]{"ET"}, previousCharacters))
                {
                    inTextObject = false;
                    resultString += " ";
                }
                else
                {
                    // Start outputting text
                    if ((c == '(') && (bracketDepth == 0) && (!nextLiteral))
                    {
                        bracketDepth = 1;
                    }
                    else
                    {
                        // Stop outputting text
                        if ((c == ')') && (bracketDepth == 1) && (!nextLiteral))
                        {
                            bracketDepth = 0;
                        }
                        else
                        {
                            // Just a normal text character:
                            if (bracketDepth == 1)
                            {
                                // Only print out next character no matter what. 
                                // Do not interpret.
                                if (c == '\\' && !nextLiteral)
                                {
                                    nextLiteral = true;
                                }
                                else
                                {
                                    if (((c >= ' ') && (c <= '~')) || ((c >= 128) && (c < 255)))
                                    {
                                        resultString += c.ToString();
                                    }
                                    nextLiteral = false;
                                }
                            }
                        }
                    }
                }
            }
            // Store the recent characters for when we have to go back for a checking
            for (int j = 0; j < _numberOfCharsToKeep - 1; j++)
            {
                previousCharacters[j] = previousCharacters[j + 1];
            }
            previousCharacters[_numberOfCharsToKeep - 1] = c;

            // Start of a text object
            if (!inTextObject && CheckToken(new string[]{"BT"}, previousCharacters))
            {
                inTextObject = true;
            }
        }
        return resultString;
    }
    catch
    {
        return "";
    }
}

private bool CheckToken(string[] tokens, char[] recent)
{
    foreach(string token in tokens)
    {
        if ((recent[_numberOfCharsToKeep - 3] == token[0]) &&
            (recent[_numberOfCharsToKeep - 2] == token[1]) &&
            ((recent[_numberOfCharsToKeep - 1] == ' ') ||
            (recent[_numberOfCharsToKeep - 1] == 0x0d) ||
            (recent[_numberOfCharsToKeep - 1] == 0x0a)) &&
            ((recent[_numberOfCharsToKeep - 4] == ' ') ||
            (recent[_numberOfCharsToKeep - 4] == 0x0d) ||
            (recent[_numberOfCharsToKeep - 4] == 0x0a))
            )
        {
            return true;
        }
    }
    return false;
}

最佳答案

让我尝试为您指出不同的方向。 iTextSharp 有一个非常漂亮和简单的文本提取系统，可以处理一些基本的标记。不幸的是它不处理颜色信息但是 according to @Mark Storer it might not be too hard to implement yourself .

开始编辑

我开始致力于实现颜色信息。参见 my blog post here更多细节。 (抱歉格式不好，现在去吃晚饭。)

结束编辑

下面的代码结合了这里的几个问题和答案，包括 this one to get the font height (虽然它不准确)以及另一个(在我的生活中我似乎再也找不到了)展示了如何检测人造粗体。

PostscriptFontName 返回字体名称前面的一些额外字符，我认为这与嵌入字体子集的时间有关。

下面是一个完整的 WinForms 应用程序，它以 iTextSharp 5.1.1.0 为目标并将文本提取为 HTML。

示例 PDF 的屏幕截图

提取为 HTML 的示例文本

<span style="font-family:NJNSWD+Papyrus-Regular;font-size:11.61407">Hello </span>
<span style="font-family:NJNSWD+Papyrus-Regular-Bold;font-size:11.61407">w</span>
<span style="font-family:NJNSWD+Papyrus-Regular-Bold;font-size:37.87201">o</span>
<span style="font-family:NJNSWD+Papyrus-Regular-Bold;font-size:11.61407">rl</span>
<span style="font-family:NJNSWD+Papyrus-Regular;font-size:11.61407">d </span>
<br />
<span style="font-family:NJNSWD+Papyrus-Regular;font-size:11.61407">Test </span>

代码

using System;
using System.Collections.Generic;
using System.Text;
using System.Windows.Forms;
using iTextSharp.text.pdf.parser;
using iTextSharp.text.pdf;

namespace WindowsFormsApplication2
{
    public partial class Form1 : Form
    {
        public Form1()
        {
            InitializeComponent();
        }

        private void Form1_Load(object sender, EventArgs e)
        {
            PdfReader reader = new PdfReader(System.IO.Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Document.pdf"));
            TextWithFontExtractionStategy S = new TextWithFontExtractionStategy();
            string F = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(reader, 1, S);
            Console.WriteLine(F);

            this.Close();
        }

        public class TextWithFontExtractionStategy : iTextSharp.text.pdf.parser.ITextExtractionStrategy
        {
            //HTML buffer
            private StringBuilder result = new StringBuilder();

            //Store last used properties
            private Vector lastBaseLine;
            private string lastFont;
            private float lastFontSize;

            //http://api.itextpdf.com/itext/com/itextpdf/text/pdf/parser/TextRenderInfo.html
            private enum TextRenderMode
            {
                FillText = 0,
                StrokeText = 1,
                FillThenStrokeText = 2,
                Invisible = 3,
                FillTextAndAddToPathForClipping = 4,
                StrokeTextAndAddToPathForClipping = 5,
                FillThenStrokeTextAndAddToPathForClipping = 6,
                AddTextToPaddForClipping = 7
            }



            public void RenderText(iTextSharp.text.pdf.parser.TextRenderInfo renderInfo)
            {
                string curFont = renderInfo.GetFont().PostscriptFontName;
                //Check if faux bold is used
                if ((renderInfo.GetTextRenderMode() == (int)TextRenderMode.FillThenStrokeText))
                {
                    curFont += "-Bold";
                }

                //This code assumes that if the baseline changes then we're on a newline
                Vector curBaseline = renderInfo.GetBaseline().GetStartPoint();
                Vector topRight = renderInfo.GetAscentLine().GetEndPoint();
                iTextSharp.text.Rectangle rect = new iTextSharp.text.Rectangle(curBaseline[Vector.I1], curBaseline[Vector.I2], topRight[Vector.I1], topRight[Vector.I2]);
                Single curFontSize = rect.Height;

                //See if something has changed, either the baseline, the font or the font size
                if ((this.lastBaseLine == null) || (curBaseline[Vector.I2] != lastBaseLine[Vector.I2]) || (curFontSize != lastFontSize) || (curFont != lastFont))
                {
                    //if we've put down at least one span tag close it
                    if ((this.lastBaseLine != null))
                    {
                        this.result.AppendLine("</span>");
                    }
                    //If the baseline has changed then insert a line break
                    if ((this.lastBaseLine != null) && curBaseline[Vector.I2] != lastBaseLine[Vector.I2])
                    {
                        this.result.AppendLine("<br />");
                    }
                    //Create an HTML tag with appropriate styles
                    this.result.AppendFormat("<span style=\"font-family:{0};font-size:{1}\">", curFont, curFontSize);
                }

                //Append the current text
                this.result.Append(renderInfo.GetText());

                //Set currently used properties
                this.lastBaseLine = curBaseline;
                this.lastFontSize = curFontSize;
                this.lastFont = curFont;
            }

            public string GetResultantText()
            {
                //If we wrote anything then we'll always have a missing closing tag so close it here
                if (result.Length > 0)
                {
                    result.Append("</span>");
                }
                return result.ToString();
            }

            //Not needed
            public void BeginTextBlock() { }
            public void EndTextBlock() { }
            public void RenderImage(ImageRenderInfo renderInfo) { }
        }
    }
}

关于c# - 如何使用 iTextSharp 获取文本格式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6882098/

文章推荐： c# - 使用 ASP.Net MVC3 显示 byte[] 中包含的图像

文章推荐： javascript - 如何在delphi中执行javascript？

java - 以 Clojure 格式(java.util.Formatter)、cl 格式(Common Lisp 格式)以编程方式控制填充？
有没有办法使用 Clojure format(基于 java.util.Formatter)或 cl-format(基于 Common Lisp 的format) 以编程方式设置空格填充？如果您事先知
java - 在数据库和 postman 上无法看到实际上传的文件(.pdf 格式)格式？
我正在尝试创建一个用户实体以及数据/文件(pdf格式)。上传并保存到数据库很好，但是当我让用户进入 postman 时尝试发送获取请求方法，然后在数据字段中显示一些糟糕的数据，而且我无法在数据库中看到
java - 将字符串转换为 ASCII 格式，然后再转换为 HEX 格式
我必须将值为 {"STX","ETX"} 的普通字符串数组转换为十六进制值，并且我应该根据 http://www.asciitable.com/ 得到 {2,3} . 最佳答案听起来你想要一个 Ma
flutter - dartfmt vs dart 格式 vs flutter 格式
我想格式化我的代码，但不确定哪种格式类型最适合我的项目需要。我发现仅对于 dart 和 flutter 项目(我都有)，有不止一个选项可用于格式化编程语言/框架中预先构建的代码。 Dart : da
excel - 我的 excel 文件是德国(德语)格式，想更改为英语(英国)格式
我已经尝试了多个代码，例如这样 Sub DateFixer() Application.ScreenUpdating = False Application.Calculation =
java - 当我查询 SOLR 时，我希望输出为 csv 格式，但输出仍然为 javabin 格式
SolrQuery query = new SolrQuery(); query.setQuery("*:*"); query.add("wt","csv"); server.query(query)
c++ - 将 QString 日期(RFC 822 格式)转换为另一种基于文化的 QString 格式
我有一个包含多个字符串的数据库，我从查询中获取了这些记录，并且我在 QString 中收到了这种格式的数据: "Mon, 13 Nov 2017 09:48:45 +0000" 所以，我需要根据文化来
xml - 如何在未安装 Excel 的情况下将 DBGrid 导出为 OOXML 格式(Excel 2007/2010 格式)？
我有一个 Delphi 2007 DBGrid，我想让用户以更新的 Excel 格式 (OOXML) 保存它，但我的标准是用户不需要安装 Excel。有没有人知道任何已经这样做的组件？是的，我已经搜索
ruby-on-rails - 在 rails 3.1 中更改 View 格式(提供移动 html 格式，回退到普通 html)
我正在我们的普通 html 站点旁边创建一个移动站点。使用 rails 3.1。移动站点在子域 m.site.com 中访问。我已经定义了移动格式(Mime::Type.register_alias
xmlstarlet 格式
我正在尝试使用 xmlstarlet 格式化 xml 文件，但我不想创建新的 xml 文件。我试过了 xmlstarlet fo --inplace --indent-tab --omit-decl
Excel 格式
我在 A 列中有一个带有文本的电子表格。例如 A1=MY TEXT1 A2=MY TEXT2 A3=MY TEXT3 A4=MY TEXT4 A5=MY TEXT5 我想在文本的前后添加撇号结果是
解析haskell保留注释/格式
我想做一些源代码转换(自动导入列表清理)，我想保留注释和格式。我听说过一些关于解析器这样做的事情，我认为是 ghc 解析器。看起来我可以通过从文件中提取内容来使用 hs-src-exts Langu
用于使值相等的 Excel 格式
我在 Excel 中工作，我想根据另一张表中的列表找出一张表中是否有匹配项。我已将值粘贴到列表中，并希望从另一张表中返回它们的相应值。包含字母和数字的单元格可以正常工作(例如:D5765000)，但
django - DurationField 格式
我有一个 DurationField在我的模型中定义为 day0 = models.DurationField('Duration for Monday', default=datetime.time
wmi - PNPDeviceID 格式
我正在为我的应用程序开发 WMI 查询。它需要为给定的 VID/PID 找到分配的虚拟 COM 端口。使用 WMI Code Creator 我发现...... 命名空间:root\CIMV2 类:W
swift - NSTextList 格式
我试图弄清楚如何使用 NSTextList，但除了 this SO question 之外，在网上几乎没有找到有用的信息。和 the comment in this blog . 使用这个我已经能够创
Oracle last_ddl_time 格式
我要查询all_objects表在哪里last_ddl_time='01 jan 2010'但它拒绝日期格式... 任何机构给我查询的确切格式？最佳答案正如 AKF 所说，您应该使用 Trunc除
Java JEditorPane 格式
我试图在我的应用程序中实现聊天功能。我使用了 2 个 JEditorPane。一个用于保存聊天记录，另一个用于将聊天发送到前一个 JEditorPane。 JEditorPane 是 text/h
assembly - 玩具编译器的输出语言/格式
我在大学里修了一个编译器类(class)，内容非常丰富，很有趣，尽管也很多工作。既然给了我们要实现的语言规范，所以我学不到的一件事就是语言设计。我现在正在考虑创建一种有趣的简单玩具语言，以便我可以玩耍
gradle - Gradle异常的结构/格式
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想改善这个问题吗？更新问题，以便将其作为on-topic

IT王子

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c# - 如何使用 iTextSharp 获取文本格式