gpt4 book ai didi

javascript - 使用 PDF.js 从带有 node.js 的 url 读取 pdf

转载 作者:行者123 更新时间:2023-12-03 18:21:41 26 4
gpt4 key购买 nike

我正在尝试从 pdf 的 url 中提取 pdf 的文本。按照 pdf.js 网站上的示例,我了解如何在客户端呈现 pdf,但是当我在服务器端执行此操作时遇到了问题。
我使用 npm i pdfjs-dist 下载了包
我尝试使用下面的代码作为加载 pdf 的简单示例:

var url = 'https://raw.githubusercontent.com/mozilla/pdf.js/ba2edeae/examples/learning/helloworld.pdf';
var pdfjsLib = require("pdfjs-dist")
var loadingTask = pdfjsLib.getDocument(url);

loadingTask.promise.then(function (pdf) {
console.log(pdf);
}).catch(function (error){
console.log(error)
})
但是当我运行它时,我收到以下错误:
  message: 'The browser/environment lacks native support for critical functionality used by the PDF.js library (e.g. `ReadableStream` and/or `Promise.allSettled`); please use an ES5-compatible build instead.',
name: 'UnknownErrorException',
details: 'Error: The browser/environment lacks native support for critical functionality used by the PDF.js library (e.g. `ReadableStream` and/or `Promise.allSettled`); please use an ES5-compatible build instead.'

关于如何去做这件事的任何想法?我要做的就是从它的 URL 中提取 pdf 的文本。我正在尝试使用 nodejs 来做这个服务器端。感谢任何输入!

最佳答案

您需要导入 pdf.js 的 es5 构建。下面的代码应该可以工作:

var pdfjsLib = require("pdfjs-dist/es5/build/pdf.js");
var url = 'https://raw.githubusercontent.com/mozilla/pdf.js/ba2edeae/examples/learning/helloworld.pdf';
var loadingTask = pdfjsLib.getDocument(url);

loadingTask.promise.then(function (pdf) {
console.log(pdf);
}).catch(function (error){
console.log(error)
})

另请查看 https://github.com/mozilla/pdf.js/blob/master/examples/node/getinfo.js对于 node.js 的工作示例

关于javascript - 使用 PDF.js 从带有 node.js 的 url 读取 pdf,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64189359/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com