gpt4 book ai didi

javascript - 如何使用 PDF.js 阅读页脚文本?

转载 作者:行者123 更新时间:2023-12-03 07:35:18 25 4
gpt4 key购买 nike

我正在尝试从科学论文中提取 DOI,并且由于这些几乎总是位于页脚中,因此我想在浏览正文之前尝试此策略。

这是我当前的方法,使用 Mozilla 的 pdf.js 搜索任意 PDF 的第一页。

var Promise = require('bluebird');
const doiRegex = new RegExp('\b(10[.][0-9]{4,}(?:[.][0-9]+)*/(?:(?!["&\'<>])[[:graph:]])+)\b', 'i');

function pdfgrep(fileObj) {
return Promise.spawn(function* () {
var pdf = yield pdfjs.getDocument(fileObj.path);
console.log(pdf);
var page = yield pdf.getPage(1);
var text = yield page.getTextContent();

for (var s of text.items) {
var match = s.str.match(regex);
if (match !== null) {
return match;
}
}

return null;
});
}

Here是一个可以测试此方法的 PDF。请注意,DOI 位于页脚中,可以使用任何普通 PDF 查看器中的搜索工具找到。但是,pdf.getPage 似乎不包含页脚中的任何文本。

  1. 如何使用 PDF.js 访问页脚文本?
  2. 如果做不到这一点,我还可以使用其他工具来实现此目的吗?

最佳答案

RegExp 未正确编写:

  • \b 在字符串中未转义,应为 \\b
  • [:graph:] 可能不起作用

其含义如下:

var doiRegex = /\b(10[.][0-9]{4,}(?:[.][0-9]+)*\/(?:(?!["&\'<>])[\x21-\x7E])+)\b/i;

关于javascript - 如何使用 PDF.js 阅读页脚文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35638879/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com