c++ - 使用 PoDoFo 库从 PDF 运算符中的数组 TJ 中提取文本-6ren

c++ - 使用 PoDoFo 库从 PDF 运算符中的数组 TJ 中提取文本

转载作者：太空宇宙更新时间：2023-11-04 01:34:45

我正在尝试使用 PoDoFo 库从 PDF 文件中提取文本，它适用于 Tj 运算符，但无法为 (数组)TJ 运算符。我找到了这段代码(经过我的小修改)here :

 const char*      pszToken = NULL;
    PdfVariant       var;
    EPdfContentsType eType;

    PdfContentsTokenizer tokenizer( pPage );

    double dCurPosX     = 0.0;
    double dCurPosY     = 0.0;
    double dCurFontSize = 0.0;
    bool   bTextBlock   = false;
    PdfFont* pCurFont   = NULL;

    std::stack<PdfVariant> stack;



while( tokenizer.ReadNext( eType, pszToken, var ) )
{

    if( eType == ePdfContentsType_Keyword )
    {
        // support 'l' and 'm' tokens

        _RPT1(_CRT_WARN, " %s\n", pszToken);

        if( strcmp( pszToken, "l" ) == 0 || 
            strcmp( pszToken, "m" ) == 0 )
        {
            dCurPosX = stack.top().GetReal();
            stack.pop();
            dCurPosY = stack.top().GetReal();
            stack.pop();
        }
        else if (strcmp(pszToken, "Td") == 0)
        {
            dCurPosY = stack.top().GetReal();
            stack.pop();
            dCurPosX = stack.top().GetReal();
            stack.pop();
        }
        else if (strcmp(pszToken, "Tm") == 0)
        {
            dCurPosY = stack.top().GetReal();
            stack.pop();
            dCurPosX = stack.top().GetReal(); 
            stack.pop();
        }
        else if( strcmp( pszToken, "BT" ) == 0 ) 
        {
            bTextBlock   = true;     
            // BT does not reset font
            // dCurFontSize = 0.0;
            // pCurFont     = NULL;
        }
        else if( strcmp( pszToken, "ET" ) == 0 ) 
        {
            if( !bTextBlock ) 
                fprintf( stderr, "WARNING: Found ET without BT!\n" );
        }

        if( bTextBlock ) 
        {
            if( strcmp( pszToken, "Tf" ) == 0 ) 
            {
                dCurFontSize = stack.top().GetReal();
                stack.pop();
                PdfName fontName = stack.top().GetName();
                PdfObject* pFont = pPage->GetFromResources( PdfName("Font"), fontName );
                if( !pFont ) 
                {
                    PODOFO_RAISE_ERROR_INFO( ePdfError_InvalidHandle, "Cannot create font!" );
                }

                pCurFont = pDocument->GetFont( pFont );
                if( !pCurFont ) 
                {
                    fprintf( stderr, "WARNING: Unable to create font for object %i %i R\n",
                        pFont->Reference().ObjectNumber(),
                        pFont->Reference().GenerationNumber() );
                }
            }
            else if( strcmp( pszToken, "Tj" ) == 0 ||
                strcmp( pszToken, "'" ) == 0 ) 
            {
                AddTextElement( dCurPosX, dCurPosY, pCurFont, stack.top().GetString() );
                stack.pop();
            }
            else if( strcmp( pszToken, "\"" ) == 0 )
            {
                AddTextElement( dCurPosX, dCurPosY, pCurFont, stack.top().GetString() );
                stack.pop();
                stack.pop(); // remove char spacing from stack
                stack.pop(); // remove word spacing from stack
            }
            else if( strcmp( pszToken, "TJ" ) == 0 ) 
            {
                PdfArray array = stack.top().GetArray();
                stack.pop();

                for( int i=0; i<static_cast<int>(array.GetSize()); i++ ) 
                {
                    _RPT1(_CRT_WARN, " variant: %s", array[i].GetDataTypeString());
                    if(array[i].IsHexString()) {
                        if(!pCurFont) {
                            _RPT1(_CRT_WARN, " : Could not Get font!!%d\n", i);
                        }
                        else {
                            if(!pCurFont->GetEncoding()) {
                                _RPT1(_CRT_WARN, ": could not get encoding\n",0);
                            } else {
                                PdfString s = array[i].GetString();
                                _RPT1(_CRT_WARN, " : valid :%s   ", s.IsValid()?"yes":"not");
                                _RPT1(_CRT_WARN, " ;hex :%s   ", s.IsHex()?"yes":"not");
                                _RPT1(_CRT_WARN, " ;unicode: %s   ", s.IsUnicode()?"yes":"not");

                                PdfString unicode = pCurFont->GetEncoding()->ConvertToUnicode(s,pCurFont);
                                const char* szText = unicode.GetStringUtf8().c_str();
                                _RPT1(_CRT_WARN, " : %s\n", strlen(szText)> 0? szText: "nothing");

                            }

                        }
                    }
                    else if(array[i].IsNumber()) {
                        _RPT1(_CRT_WARN, " : %d\n", array[i].GetNumber());
                    }

                    if( array[i].IsString() )//|| array[i].IsHexString())
                        AddTextElement( dCurPosX, dCurPosY, pCurFont, array[i].GetString() );
                }
            }
        }
    }
    else if ( eType == ePdfContentsType_Variant )
    {
        stack.push( var );

        _RPT1(_CRT_WARN, " variant: %s\n", var.GetDataTypeString());
    }
    else
    {
        // Impossible; type must be keyword or variant
        PODOFO_RAISE_ERROR( ePdfError_InternalLogic );
    }
}

对于代码，我得到了这个输出:

    BT
 variant: Name
 variant: Real
 Tf
 variant: Number
 variant: Number
 variant: Number
 rg
 variant: Real
 variant: Number
 variant: Number
 variant: Number
 variant: Real
 variant: Real
 Tm
 variant: Array
 TJ
 variant: HexString : valid :yes    ;hex :yes    ;unicode: not    : nothing
 variant: Number : -7
 variant: HexString : valid :yes    ;hex :yes    ;unicode: not    : nothing
 variant: Number : -15
 variant: HexString : valid :yes    ;hex :yes    ;unicode: not    : nothing
 variant: Number : -15
 variant: HexString : valid :yes    ;hex :yes    ;unicode: not    : nothing
 variant: Number : -11
 variant: HexString : valid :yes    ;hex :yes    ;unicode: not    : nothing
 variant: Number : -11
 variant: HexString : valid :yes    ;hex :yes    ;unicode: not    : nothing
 variant: Number : -19
 variant: HexString : valid :yes    ;hex :yes    ;unicode: not    : nothing
 variant: Number : -11
 variant: HexString : valid :yes    ;hex :yes    ;unicode: not    : nothing
 variant: Number : -15
 variant: HexString : valid :yes    ;hex :yes    ;unicode: not    : nothing
 variant: Number : -11
 variant: HexString : valid :yes    ;hex :yes    ;unicode: not    : nothing
 ET

PDF 流对象会像这样(很抱歉，我不能给你 pdf 文件):

    q
Q
q
Q
q
q
q
1 0 0 1 37.68 785.28 cm
91.92 0 0 31.44 0 0 cm
/Img1 Do
Q
Q
q
q
1 0 0 1 431.28 780.24 cm
42.72 0 0 7.2 0 0 cm
/Img2 Do
Q
Q
q
BT
/F1 8.88 Tf
0 0 0 rg
0.9998 0 0 1 377.28 704.4 Tm
[<0026>-7<004F>-15<004C>-15<0048>-11<0051>-11<0057>-19<0058>-11<004F>-15<0058>-11<004C>] TJ
ET
Q
q
1 0 0 1 0 0 cm
0.4799 w
0 0 0 RG
377.28 703.44 m
415.2 703.44 l
S
Q
q
BT
/F1 8.16 Tf
0 0 0 rg
0.9998 0 0 1 377.28 687.36 Tm
[<0030>9<0027>-13<002C>-16<0003>1<0026>-13<0032>13<0031>-13<0036>-9<0037>-6<0035>-13<0038>-13<0026>-13<0037>-6<0003>1<0037>-6<0035>-13<0024>-9<0031>-13<0036>-9<0003>1<0028>-9<003B>-9<0033>-9<0028>-9<0035>-13<0037>-6<0003>1<0036>-9<0035>-13<002F>] TJ
ET

应找到 PDF 文件 here或 here

最佳答案

1. 中央代码部分是这样的原始问题的答案:

else if( strcmp( pszToken, "TJ" ) == 0 ) 
{
    PdfArray array = stack.top().GetArray();
    stack.pop();
                
    for( int i=0; i<static_cast<int>(array.GetSize()); i++ ) 
    {
        if( array[i].IsString() )
            AddTextElement( dCurPosX, dCurPosY, pCurFont, array[i].GetString() );
        }
    }
}

问题是:

I've noticed that the the array[i].IsString() never gets to be true. Is this the right way to get the text from a TJ operator?

简短的回答:

PoDoFo 中的十六进制字符串 PdfVariants被IsHexString()认可而不是 IsString() .因此，您必须测试两种字符串风格:

if( array[i].IsString() || array[i].IsHexString() )

长答案:

PDF 中有两种基本的字符串风格:

String objects shall be written in one of the following two ways:

As a sequence of literal characters enclosed in parentheses ( ) (using LEFT PARENTHESIS (28h) and RIGHT PARENThESIS (29h)); see 7.3.4.2, "Literal Strings."

As hexadecimal data enclosed in angle brackets < > (using LESS-THAN SIGN (3Ch) and GREATER-THAN SIGN (3Eh)); see 7.3.4.3, "Hexadecimal Strings."

(section 7.3.4 in ISO 32000-1)

PoDoFo 模型均使用 PdfString在解析上下文中的类通常包含在 PdfVariant 中或更具体地在 PdfObject 中.

但是，在确定其中包含的对象的类型时，PdfVariant区分文字字符串和十六进制字符串:

/** \returns true if this variant is a string (i.e. GetDataType() == ePdfDataType_String)
 */
inline bool IsString() const { return GetDataType() == ePdfDataType_String; }

/** \returns true if this variant is a hex-string (i.e. GetDataType() == ePdfDataType_HexString)
 */
inline bool IsHexString() const { return GetDataType() == ePdfDataType_HexString; }

(PdfVariant.h)

PdfString 的类型在 PdfVariant 里面包裹时确定:

PdfVariant::PdfVariant( const PdfString & rsString )
{
    Init();
    Clear();

    m_eDataType  = rsString.IsHex() ? ePdfDataType_HexString : ePdfDataType_String;
    m_Data.pData = new PdfString( rsString );
}

(PdfVariant.cpp)

对于您的 TJ 参数数组组件，相关字符串被读取为十六进制字符串。

因此，在您的代码中，您必须同时考虑 IsHexString()和 IsString() :

if( array[i].IsString() || array[i].IsHexString() )

2. 此后，修改代码后使用IsHexString(),进行检查。问题集中在

PdfString s = array[i].GetString();
_RPT1(_CRT_WARN, " : valid :%s   ", s.IsValid()?"yes":"not");
_RPT1(_CRT_WARN, " ;hex :%s   ", s.IsHex()?"yes":"not");
_RPT1(_CRT_WARN, " ;unicode: %s   ", s.IsUnicode()?"yes":"not");

PdfString unicode = pCurFont->GetEncoding()->ConvertToUnicode(s,pCurFont);
const char* szText = unicode.GetStringUtf8().c_str();
_RPT1(_CRT_WARN, " : %s\n", strlen(szText)> 0? szText: "nothing");

和问题(如评论中所述)

the s.GetLength() returns 2 and unicode.GetLength() returns 0, the conversion didn't work?

示例文档分析 Document2.pdf显示相关文档确实包含文本提取所需的信息。该文档中唯一使用十六进制编码的字体是 /F1，它的字体字典确实包含一个适当的 /ToUnicode 映射，用于可靠的文本提取。

不幸的是，PoDoFo 似乎还没有正确地使用该 map 进行解析。我没有在任何地方看到它检索 /ToUnicode 映射以使包含的信息可用于文本解析。看起来 PoDoFo 无法正确解析使用 Type0 又名复合字体的文档文本。

关于c++ - 使用 PoDoFo 库从 PDF 运算符中的数组 TJ 中提取文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16607094/

文章推荐： c - 一些链表C宏的问题

文章推荐： node.js - 使用 mongoose 更新 MongoDB 文档时出现问题

文章推荐： node.js - NodeJS - 主文件未接收函数内的lookupService的返回

VBS教程：运算符-Or 运算符
Or 运算符对两个表达式进行逻辑“或”运算。 result = expression1 Or expression2 参数 result 任意数值变量。 expression1 任意
VBS教程：运算符-Not 运算符
Not 运算符对表达式执行逻辑非运算。 result = Not expression 参数 result 任意数值变量。 expression 任意表达式。说明下表显示如何
VBS教程：运算符-Is 运算符
Is 运算符比较两个对象引用变量。 result = object1 Is object2 参数 result 任意数值变量。 object1 任意对象名。 object2 任意
VBS教程：运算符-\ 运算符
\ 运算符两个数相除并返回以整数形式表示的结果。 result = number1\number2 参数 result 任意数值变量。 number1 任意数值表达式。 numbe
VBS教程：运算符-And 运算符
And 运算符对两个表达式进行逻辑“与”运算。 result = expression1 And expression2 参数 result 任意数值变量。 expression1
VBS教程：运算符-运算符(+)
运算符(+) 计算两个数之和。 result = expression1 + expression2 参数 result 任意数值变量。 expression1 任意表达式。 exp
Javascript + 运算符 vs - 运算符
我对此感到困惑snippet : var n1 = 5-"4"; var n2 = 5+"4"; alert(n1); alert(n2); 我知道 n1 是 1。那是因为减号运算符会将字符串“4”转
c++ - |运算符 ,++ 和 I 运算符
我想我会得到 12，而不是 7。 w++，那么w就是4，也就是100，而w++， w 将是 8，1000；所以 w++|z++ 将是 100|1000 = 1100 将是 12。我怎么了？ int
VBS教程：运算符-Xor 运算符
Xor 运算符对两个表达式进行逻辑“异或”运算。 result = expression1 Xor expression2 参数 result 任意数值变量。 expression1
VBS教程：运算符-Mod 运算符
Mod 运算符两个数值相除并返回其余数。 result = number1 Mod number2 参数 result 任意数值变量。 number1 任意数值表达式。 numbe
VBS教程：运算符-Imp 运算符
Imp 运算符对两个表达式进行逻辑蕴涵运算。 result = expression1 Imp expression2 参数 result 任意数值变量。 expression1 任
VBS教程：运算符-Eqv 运算符
Eqv 运算符执行两个表达式的逻辑等价运算。 result = expression1 Eqv expression2 参数 result 任意数值变量。 expression1 任
c++ - 时序运算符+、运算符-、运算符*和运算符/
我有一个运算符重载的简单数学 vector 类。我想为我的运算符(operator)获取一些计时结果。我可以通过计时以下代码轻松计时我的 +=、-=、*= 和/=: Vector sum; for(s
c++ - 用户定义的比较运算符(运算符>、运算符<等)
我是用户定义比较运算符的新手。我正在读一本书，其中提到了以下示例: struct P { int x, y; bool operator、运算符<等)，我们
sql - 标准 SQL bool 运算符 IS 与等于 (=) 运算符
在 SQL 的维基百科页面上，有一些关于 SQL 中 bool 逻辑的真值表。 [1] 维基百科页面似乎来源于 SQL:2003 标准。等号运算符 (=) 的真值表与 SQL:2003 草案中的 I
c++ - 奇怪的 c++ 运算符(运算符 unsigned short())
我遇到了一个奇怪的 C++ 运算符。 http://www.terralib.org/html/v410/classoracle_1_1occi_1_1_number.html#a0f2780081f
C++:如果我重载 new 运算符，我是否也必须重载 delete 运算符？
我正在阅读关于 SO 和 answers 中的一个问题，它被提到为: If no unambiguous matching deallocation function can be found, pr
python - 如何在不使用 * 运算符(或/运算符)的情况下递归地将两个正整数相乘？ .您可以使用加法、减法和位移
我偶然发现了这个解决方案，但我无法理解其中到底发生了什么。谁能解释一下! 据我了解，它试图通过计算一半的单元格然后将其加倍来计算 a*b 网格中的单元格数量。但是我无法理解递归调用。请不要建议其他解
Go学习笔记（6）Go基本类型&运算符
Go的基本类型布尔类型bool 长度：1字节取值：布尔类型的取值只能是true或者false，不能用数字来表示整型通用整型 int / uint（有符号 / 无符号，下面也类似）长度：根据运
JavaScript 运算符
在本教程中，您将学习JavaScript中可用的不同运算符，以及在示例的帮助下如何使用它们。什么是运算符？在JavaScript中，运算符是一种特殊符号，用于对运算数（值和变量）执行操作。例如，

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 使用 PoDoFo 库从 PDF 运算符中的数组 TJ 中提取文本