gpt4 book ai didi

c++ - 有没有办法使用 libpoppler 分别访问页眉、页脚和页面内容?

转载 作者:太空宇宙 更新时间:2023-11-04 04:25:32 27 4
gpt4 key购买 nike

我正在使用libpoppler将PDF文件解析为纯文本,并且我想分别输出页眉、页脚和内容,我该怎么做?是否有任何结构或类保存它们?

提前致谢!!

最佳答案

您可以使用poppler_page_get_text()获取页面中的文本。之后你能解析纯文本吗?这是示例代码。它不是 C++,但希望您能看到这个想法。

在 Debian 不稳定 amd64、libpoppler-glib-dev 0.18.4-3、gcc 4.7.1-7 上测试

$ gcc -Wall -g -Wextra get-text.c $(pkg-config --cflags --libs poppler-glib)

#include <poppler.h>
#include <glib.h>

int main(int argc, char *argv[])
{
GError *error = NULL;
PopplerDocument *d;
PopplerPage *p;
gchar *f;
gchar *u;

g_type_init();

if (argc < 2)
g_error("oops: no file name given");

if (g_path_is_absolute(argv[1]))
f = argv[1];
else
f = g_build_filename(g_get_current_dir(), argv[1], NULL);

u = g_filename_to_uri(f, NULL, &error);
if (!u)
g_error("oops: %s", error->message);

d = poppler_document_new_from_file(u, NULL, &error);
if (!d)
return -1;

p = poppler_document_get_page(d, 1);
g_print("%s\n", poppler_page_get_text(p));

return 0;
}

关于c++ - 有没有办法使用 libpoppler 分别访问页眉、页脚和页面内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9360686/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com