gpt4 book ai didi

java - 即时搜索 PB 级数据

转载 作者:可可西里 更新时间:2023-11-01 15:01:45 26 4
gpt4 key购买 nike

我需要在 CSV 甲酸盐文件中搜索超过 PB 的数据。使用 LUCENE 建立索引后,索引文件的大​​小是原始文件的两倍。是否可以减少索引文件的大​​小??? HADOOP中如何分发LUCENE索引文件以及如何在搜索环境中使用?或者是否有必要,我应该使用 solr 来分发 LUCENE 索引???我的要求是对 PB 级文件进行即时搜索....

最佳答案

Hadoop 和 Map Reduce 基于批处理模型。您不会从中获得即时响应速度,这不是该工具的设计目的。您也许可以使用 Hadoop 加快索引速度,但它不会执行您想要的查询操作。

看看Lucandra ,这是一个基于 Cassandra 的 Lucene 后端。 Cassandra 是另一个分布式数据存储,如果我记得的话,它是在 Facebook 开发的,旨在以比 hadoop 更面向查询的访问模型更快的访问时间。

关于java - 即时搜索 PB 级数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4791602/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com