gpt4 book ai didi

Azure 表单识别器对 Office 文档的主线支持

转载 作者:行者123 更新时间:2023-12-03 02:05:08 32 4
gpt4 key购买 nike

我一直在使用 2022/06/30-preview用于 OCR 化 docx 和 powerpoint 文档的 API 版本。现在API已稳定并已移至2022-08-31 ,我已经更新了我的代码以使用这个稳定版本(只是sdk客户端的版本更新),但是相同的文档现在被拒绝,错误InvalidContent , "The file is corrupted or format is unsupported. Refer to documentation for the list of supported formats." .

是否已放弃对 Office 文档的支持或是否需要添加一些设置?来自 the changelog我似乎没有看到任何提到上一个预览版本和稳定版本之间的支持已被删除。

我正在使用node.js SDK。我已经检查过使用 @azure/<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="56373f7b3039243b7b2433353931383f2c33241662786678667b343322377863" rel="noreferrer noopener nofollow">[email protected]</a> 接受相同的 docx 文档,使用相同的确切代码。 SDK客户端,但不是最新稳定的@azure/<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="62030b4f040d100f4f1007010d050c0b18071022564c524c52" rel="noreferrer noopener nofollow">[email protected]</a>版本。我使用的代码几乎与 quickstart 中的示例代码完全相同。 ,仅 url 发生变化。

最佳答案

  • 好吧,按照这个MSDOC他们已经放弃了所有 SDK 对 Microsoft Office 文件的支持。

  • 因此,您有两个选项,表单识别器确实通过 RestAPi 提供支持,但针对 Microsoft Office 文件。 。因此,您可以进行http调用,也可以将文件转换为pdf,然后使用传统的SDK进行进一步处理。

  • 使用 docx-pdf 完成转换npm 包。这里我有一个hjh.docx我将其转换为 pdfuploader.pdf然后进行处理。

const  fs = require("fs");
const { AzureKeyCredential, DocumentAnalysisClient } = require("@azure/ai-form-recognizer");

const key= "";
const endpoint = "";

async function main() {
//convertion logic
var docxConverter = require('docx-pdf');
docxConverter('./hjh.docx','./pdfuploader.pdf',function(err,result){
if(err){
console.log(err);
}
console.log('result'+result);
});

// form recognizer logic

const client = new DocumentAnalysisClient(endpoint, new AzureKeyCredential(key));
const readStream = fs.createReadStream("<Path>");
const poller = await client.beginAnalyzeDocument("prebuilt-document", readStream,{
onProgress: ({ status }) => {
console.log(`status: ${status}`);
},
});
const e = await poller.pollUntilDone();
console.log(e);

}
main().catch((error) => {
console.error("An error occurred:", error);
process.exit(1);
});

@azure/ai-form-recognizer输出: enter image description here

@azure/<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="9cfdf5b1faf3eef1b1eef9fff3fbf2f5e6f9eedca8b2acb2acb1fef9e8fdb2a9" rel="noreferrer noopener nofollow">[email protected]</a>输出:

enter image description here

关于Azure 表单识别器对 Office 文档的主线支持,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/75087424/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com