gpt4 book ai didi

elasticsearch - 存储数 TB 的数据,然后导入到 elasticsearch

转载 作者:IT王子 更新时间:2023-10-29 06:11:15 25 4
gpt4 key购买 nike

我正在寻找一种在云端存储多达 20 TB 数据(社交媒体帖子、推特数据等)并逐渐将其输入 Elasticsearch(以启用分面搜索)以便快速搜索的好方法.我打算把它分成两步。将数据保存到存储中,然后对其进行索引(第二天或下个月)。我看到有人提到 Redis。这样合适吗?使用 AWS 和 S3 或谷歌来做这件事会更好吗?有没有比使用 Redis 更好的方法来做到这一点?一旦数据被索引,我就不再需要原始数据了。

最佳答案

AWS 是天作之合,S3 上传是免费的。他们有托管的 ElasticSearch 和 Redis/ElasticCache,或者您可以在 EC2 上托管自己的。 Redis 是一种内存中键值存储,不太适合动态搜索,而 ElasticSearch 是一种持久化文档存储,非常适合搜索和聚合。

如果您启用 S3 事件,则文件创建事件可能会触发以 Python 或其他语言编写的 AWS Lamba,以便在文件出现时自动读取您的数据,并使用 ElasticSearch http API 插入。每月前 100 万次 Lamba 处决是免费的。 ElasticSearch 索引属性允许您选择哪些字段将自动编入索引以供搜索。

在您处理完 AWS 数据后,将其删除或将其存储类型更改为不经常访问或减少冗余以节省您的账单。我用 http://www.insight4storage.com/通过跟踪我的存储使用趋势来降低我的 S3 成本。

关于elasticsearch - 存储数 TB 的数据,然后导入到 elasticsearch,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37628614/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com