python - Textract 不支持的文档异常-6ren

python - Textract 不支持的文档异常

转载作者：行者123 更新时间：2023-12-05 05:01:36

27

4

我正在尝试使用 boto3 运行 textract detect_document_text 请求。

我正在使用以下代码:

client = boto3.client('textract')
response = client.detect_document_text(
             Document={
            'Bytes': image_b64['document_b64']
        }
      )

其中 image_b64['document_b64'] 是我转换后使用的 base64 图像代码，例如 https://base64.guru/converter/encode/image网站。

但我收到以下错误:

UnsupportedDocumentException

我做错了什么？

最佳答案

每个文档:

If you're using an AWS SDK to call Amazon Textract, you might not need to base64-encode image bytes passed using the Bytes field.

只有在直接调用 REST API 时才需要 Base64 编码。使用 Python 或 NodeJS SDK 时，使用原生字节(二进制字节)。

关于python - Textract 不支持的文档异常，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62659327/

27

4

0

文章推荐： Python:一次用于多个参数的TypeVar

文章推荐： wagtail - 有没有办法将自定义唯一标识符添加到鹡鸰 block

文章推荐： javascript - prettier 弄乱了 jsx 片段

文章推荐： javascript - 隐藏 CSS 网格中溢出的元素

python - 无法使用 !pip install textract 安装 textract
我一直在尝试使用命令安装 textract:!pip install textract，但出现以下错误: Collecting textract Requirement already satisfi
python - Textract 不支持的文档异常
我正在尝试使用 boto3 运行 textract detect_document_text 请求。我正在使用以下代码: client = boto3.client('textract') resp
java - 在gradle依赖项和Java项目中导入AWS Textract
我找不到以下内容的任何文档1. 在 Gradle Java 项目中添加 AWS Textract 的依赖项2. AWS Textract 到底要导入什么有人可以帮忙或提供指导吗？最佳答案 // h
c# - 带有手写复选框的 AWS textract
我有 1000 份调查表需要扫描，然后上传到我的 C# 系统以提取数据并将其输入数据库。这些调查混合了手写的 1) 文本框和 2) 复选框。我目前正在使用 Azure Read Api 来提取应该可以
python - 安装 textract 时出现错误
错误显示.. UnicodeDecodeError: 'charmap' codec can't decode byte 0x8d in position 1671: character maps t
python - AWS Textract - UnsupportedDocumentException - PDF
我正在使用 boto3(用于 python 的 aws sdk)来分析文档(pdf)以获取表单键:值对。 import boto3 def process_text_analysis(bucket,
python - 在本地使用 Textract 进行 OCR
我想使用 Python 从图像中提取文本。 (Tessaract lib 对我不起作用，因为它需要安装)。我找到了 boto3 lib 和 Textract，但是我在使用它时遇到了麻烦。我还是新手。
Python pdftotext ShellError 使用 textract
当我在包含 PDF 文件的目录上运行以下 Python 脚本时，我不断收到此错误: ShellError: The command pdftotext "path/to/pdf/title.pdf"
python - 无法在 Windows 上安装 textract
我尝试了很多方法，但当我尝试使用 pip 命令在我的 Windows 上安装 textract 包时仍然失败。我收到以下错误: 我不知道该怎么做，所以我将非常感谢任何建议。谢谢最佳答案盗自 he
boto3 - 对 Boto3 调用 Textract 的无效请求
我正在尝试对 Textract 进行 boto3 调用，但我看不出我的代码有什么问题。这是我收到的错误消息: Traceback (most recent call last): File "ru
java - OCR AWS Textract 服务无法区分上标/指数
我正在使用 Textract AWS 服务。像 1010 这样的值会被读取为 1010。这会导致读取错误的数据。此外，单元格内数据的边界有时会与包含单元格的边界重叠。如何解决这些问题？最佳答案
python - 无法在 google colab 中安装 textract
我无法在 google colab 中安装 textract，错误消息如下所示。有些人建议使用 sudo apt-get install libasound2-dev 但如何在 google col
python - 使用 Textract 提取/抓取 PDF - 不打印文本
我正在尝试使用 Textract 提取 doem PDF 文件中的文本。但是，当我打印代码末尾的文本时，它只是打印出很多空白。谁能指出我正在发生的事情的方向吗？ (顺便说一下，文本不是=“”) imp
python - 如何在 Anaconda (Windows 10) 上安装 textract？
我正在尝试在 Windows 上安装 Anaconda，但出现以下错误: Conda: screenshot of error Pip install: screenshot of error 错误信
amazon-web-services - 如何将 Amazon Textract 用于 PDF 文件
我已经可以使用文本提取但使用 JPEG 文件。我想将它与 PDF 文件一起使用。我有以下代码: import boto3 # Document documentName = "Path to doc
amazon-web-services - AWS Textract StartDocumentAnalysis 函数未向 SNS 主题发布消息
我正在使用 AWS Textract 并且我想分析一个多页文档，因此我必须使用异步选项，所以我首先使用了 startDocumentAnalysis函数，我得到了一个 JobId 作为返回，但它需要触
java - AWS Textract : Exception in thread "main" java. lang.NoSuchMethodError
我在执行 AWS Tetxtract API 时收到此错误。 Exception in thread "main" java.lang.NoSuchMethodError: com.amazonaws
amazon-web-services - 使用 Go 将 S3 文档发送到 Textract
我正在尝试使用 Go 将 S3 存储桶中的对象发送到 Textract 并收集响应。我正在使用 aws go sdk 包并能够连接到我的 S3 存储桶并列出其中包含的所有对象。到目前为止，一切都很好
centos - 在 Amazon EMR 实例(它有 CentOS)上安装 textract 时出现问题。
因此，当我尝试在 Amazon EMR 实例中安装 textract 时，我遇到了这个问题。我已经尝试了网络上几乎所有可能的解决方案，似乎没有什么对我有用。有人可以帮忙吗？ Command - sud
python - Textract - 属性错误 : 'module' object has no attribute 'process' - pointing to non existent file
我正在尝试对从 .doc、.docx 和 .pdf 文件中获取文本的各种方式进行一些速度测试，并遇到了用于 Python 的 textract，这看起来很有希望。我已经安装了 textract 及其在

首页

博学

6Ren·AI

商城

python - Textract 不支持的文档异常