gpt4 book ai didi

javascript - 无法解析页面文本,得到 "ReferenceError: ReadableStream is not defined"

转载 作者:行者123 更新时间:2023-12-04 00:56:01 33 4
gpt4 key购买 nike

我目前正在尝试创建一个实用程序来解析 PDF 中的注释。我可以很好地加载 PDF 文件,注释对象也很好,但我需要获取与这些注释相关的文本(带下划线、突出显示等)。

当我尝试使用失败的 getTextContent() 方法时,这变得很棘手。下面是发生这种情况的方法:

/**
* @param pdf The PDF document obtained upon `pdfjs.getDocument(pdf).promise` success.
*/
function getAllPages(pdf) {
return new Promise((resolve, reject) => {
let allPromises = [];
for (let i = 0; i < numPages; i++) {
const pageNumber = i + 1; // note: pages are 1-based
const page = pdf.getPage(pageNumber)
.then((pageContent) => {

// testing with just one page to see what's up
if (pageNumber === 1) {
try {
pageContent.getTextContent()
.then((txt) => {
// THIS NEVER OCCURS
console.log('got text');
})
.catch((error) => {
// THIS IS WHERE THE ERROR SHOULD BE CAUGHT
console.error('in-promise error', error)
});
} catch (error) {
// AT LEAST IT SHOULD BE CAUGHT HERE
console.log('try/catch error:', error);
}
}
})
.catch(reject);

allPromises.push(page);
}
Promise.all(allPromises)
.then(() => {
allPagesData.sort(sortByPageNumber);
resolve(allPagesData);
})
.catch(reject);
});
}

当调用 pageContent.getTextContent() 时,它应该返回一个 promise ,在 catch( ) try 的一部分。

这很奇怪,因为我本以为 pageContent.getTextContent().catch() 能够捕捉到它。另外,我不知道该怎么做才能解决这个问题。

感谢任何帮助。

最佳答案

我注意到使用 pdfjs-dist 会导致错误。

改用 pdfjs-dist/es5/build/pdf.js

const pdfjs = require('pdfjs-dist/es5/build/pdf.js');

更新:

const pdfJs = require('pdfjs-dist/legacy/build/pdf')

Example usage

关于javascript - 无法解析页面文本,得到 "ReferenceError: ReadableStream is not defined",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62502727/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com