javascript - 如何使用 PDF.js 阅读页脚文本？-6ren

javascript - 如何使用 PDF.js 阅读页脚文本？

转载作者：行者123 更新时间：2023-12-03 07:35:18

我正在尝试从科学论文中提取 DOI，并且由于这些几乎总是位于页脚中，因此我想在浏览正文之前尝试此策略。

这是我当前的方法，使用 Mozilla 的 pdf.js 搜索任意 PDF 的第一页。

var Promise = require('bluebird');
const doiRegex = new RegExp('\b(10[.][0-9]{4,}(?:[.][0-9]+)*/(?:(?!["&\'<>])[[:graph:]])+)\b', 'i');

function pdfgrep(fileObj) {
    return Promise.spawn(function* () {
        var pdf = yield pdfjs.getDocument(fileObj.path);
        console.log(pdf);
        var page = yield pdf.getPage(1);
        var text = yield page.getTextContent();

        for (var s of text.items) {
            var match = s.str.match(regex);
            if (match !== null) {
                return match;
            }
        }

        return null;
    });
}

Here是一个可以测试此方法的 PDF。请注意，DOI 位于页脚中，可以使用任何普通 PDF 查看器中的搜索工具找到。但是，pdf.getPage 似乎不包含页脚中的任何文本。

如何使用 PDF.js 访问页脚文本？
如果做不到这一点，我还可以使用其他工具来实现此目的吗？

最佳答案

RegExp 未正确编写:

\b 在字符串中未转义，应为 \\b
[:graph:] 可能不起作用

其含义如下:

var doiRegex = /\b(10[.][0-9]{4,}(?:[.][0-9]+)*\/(?:(?!["&\'<>])[\x21-\x7E])+)\b/i;

关于javascript - 如何使用 PDF.js 阅读页脚文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35638879/

文章推荐： python - 在 gunicorn 中为不同的端点配置不同的超时？

文章推荐： swift - SceneKit Cocoa快照声明失败

文章推荐： javascript - 普通 JavaScript 计算器

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

javascript - 如何使用 PDF.js 阅读页脚文本？