gpt4 book ai didi

amazon-web-services - Lambda S3 getObject流到ES接收管道

转载 作者:行者123 更新时间:2023-12-02 22:38:02 25 4
gpt4 key购买 nike

我正在使用lambda通过ES收录附件插件将上传到S3的PDF文件推送到AWS托管的Elasticsearch。

一些PDF可能很大-超过100mb-并且似乎最好以块的形式流式传输文件,而不是将整个文件缓冲区加载到lambda内存中。我已经看到了s3-lambda-es示例代码,它们都在易于流传输的json日志上工作,但是我还没有看到有人使用用于摄取插件的二进制文档。

注意:我正在将Elasticssearch-js库与http-aws-es connectionClass结合使用,以使其可与lambda一起使用。

我当前的代码基本上可以用,但是在发送给ES之前,它会加载整个pdf。
这是getObject回调:

s3.getObject({ Bucket: bucket, Key: key }, function(err, data) {
if (err) {
console.log(err, err.stack); // an error occurred
context.fail();
} else {
console.log('data: ', data); // successful response
var attachment = data.Body.toString('base64');
elasticsearch.index(
{
index: 'attachments2',
pipeline: 'pdf_attachment2',
type: 'pdf',
body: {
data: attachment
}
},
function(error, resp) {
if (error) {
console.trace('index error!', error);
} else {
console.log('index response', resp);
context.succeed();
}
}
);
}
});

是否有更好的方法将单个大文档流式传输到ES?

最佳答案

Is there a better way to stream a single large document to ES?



简短答案:不,请使用 s3.getObject
详细答案:是,请阅读以下内容

首先,限制是Elasticsearch。它只是不公开任何流API。如果尝试 search API docs,您甚至都找不到任何流。

为什么?因为Elasticsearch并非旨在将大文件流式传输到其中!

请求正文的默认限制为100MB,即 can be increased to 2GB with tuning。 (相同的链接说明了为什么不应该索引这么大的文件)。简而言之,您将获得不良且无关紧要的搜索结果,ES过载,吞噬所有RAM等。

此外,您提到要使用 ingest attachment plugin,如果继续使用 default configuration,您可能会注意到 indexed_chars的默认值:

enter image description here

这意味着,默认情况下,ES会阻止您存储大于100KB的字段!

当然,您可以覆盖所有内容,并根据需要调整ES并将2GB文档存储在1个字段中。但通常不建议这样做。

推荐的方法是将较大的pdf分割成较小的块,并使用 documentId或类似内容将它们索引为单独的文档。然后,您可以使用 ES fields collapsing通过共享 documentId对文档进行重复数据删除(ES 5.3中的新增功能,在较旧版本中使用热门匹配)。那就是您最终不会在Lambda中发送100MB的内容。

因此,总结一下:,您无法以1个文档的格式将其流式传输到ES大文本,ES并不是为此而设计的。但是,如果您愿意,您可以发送100MB的文本。 AWS Lambda应该很好,将在需要时处理内存。

关于amazon-web-services - Lambda S3 getObject流到ES接收管道,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43706192/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com