gpt4 book ai didi

Javascript、Tesseract、AWS IoT、Dynamodb 和缓冲区

转载 作者:行者123 更新时间:2023-11-28 03:48:05 25 4
gpt4 key购买 nike

我正在一个小型 Tesseract 项目上工作和测试,并完全归功于 http://aalvarez.me/blog/posts/building-an-ocr-service-with-tesseractjs-in-aws-lambda.html我有一个在 Lambda 中运行的 Tesseract 项目,它接受 s3 事件并处理上传到 s3 的图像。

下一个目标是处理来自 AWS IoT 的图像。主要障碍是您无法通过 MQTT 发送图像。

我的方法是在 MQTT 主题上发送图像的缓冲区/二进制流,然后 IoT 规则触发相同的 lambda 进行处理。

但是首先,我需要有一个有效的二进制流(还没有真正的硬件和摄像头,仅供引用,我是后端人员)通过 IoT 发送,所以我修改了我的项目,不仅存储在图像以及图像的二进制流/缓冲区。

我需要这样做,因为 AWS Cloudwatch 会 chop 日志记录,因此当我注销 Lambda 函数加载的 s3 对象的数据负载时,您得到的只是一个严重 chop 的缓冲区对象。

dataBody: <Buffer 89 50 4e 47 0d 0a 1a 0a 00 00 00 0d 49 48 44 52 00 00 01 90 00 00 01 90 08 06 00 00 00 80 bf 36 cc 00 00 20 00 49 44 41 54 78 5e ed 9d 09 f8 76 df 58 ... >

因此,我添加了一些代码,按照下面的方式使用 DynamoDB updateItem 和 SET 来设置数据库项上的属性,并使用用于执行 OCR 的原始缓冲区,如下所示

            "UpdateExpression": "SET img = :attrValue",
"ExpressionAttributeValues": {
":attrValue": { "B": dataBody }

这有效,并且在带有一大串字符的项目中创建了属性,我认为这些字符是原始的,但可能采用了某种不同的格式

现在,如果我将这个大字符串作为 MQTT 有效负载发送并触发规则,那么 Lambda 就会触发,但是当我转换有效负载并尝试处理它时,Tesseract 会提示

类型错误:无法读取 null 的属性“mime”

该错误可能是将 IoT 有效负载转换为缓冲区进行处理的结果,因为在读取原始 s3 对象时,它现在与原始缓冲区完全不同,因此不存在 mime 属性。我正在选择的数据现在已被处理

let ocrBuffer = Buffer.from(iotEvent)

ocrBuffer: <Buffer 69 56 42 4f 52 77 30 4b 47 67 6f 41 41 41 41 4e 53 55 68 45 55 67 41 41 41 5a 41 41 41 41 47 51 43 41 59 41 41 41 43 41 76 7a 62 4d 41 41 41 67 41 45 ... >

对缓冲区和处理图像等有点新手,但我怀疑将其存储到 DynamoDB 的过程以某种方式改变了原始缓冲区或将其包装在某些东西中,因此我需要正确地取消更改/解开它,这样它就变成了与原始 Buffer 相同,以 89 而不是 69 开头。

有谁知道哪里出了问题以及应该从哪里开始寻找。

现在我可以将图像上传到 s3,并且我想以某种方式保存有效负载,以便我可以将其用作通过 IoT 服务使用的测试有效负载

谢谢标记

最佳答案

问题的症结似乎是来自 Tesseract 的这条消息:

类型错误:无法读取 null 的属性“mime”

这至少有一个明确的原因。当您将数据发送到 Tesseract 时,听起来您没有设置 Content-type http header 。

examples from Tesseract 看起来需要 Content-type header ,这很有意义,因为它需要知道您要发布到它的文件类型。

所以我认为这里的问题是您的 Lambda 函数如何将数据发布到 Tesseract,特别是它如何设置 Content-type 和 Content-Disposition header ?

尽管您的二进制数据可能存在问题,但我现在可能不会关注这一点,因为它似乎不是 Tesseract 提示的问题。

您可以尝试的一件事是使用curl将(本地)文件发布到Tesseract,非常简单。假设此方法可行,请将 HTTP 请求与您的 Lambda 函数生成的请求进行比较,然后从那里反向工作。我怀疑您没有内容问题,或者至少这可能不是当前的问题。

关于Javascript、Tesseract、AWS IoT、Dynamodb 和缓冲区,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48272990/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com