gpt4 book ai didi

hadoop - 在 avro 序列化数据上构建搜索层索引

转载 作者:可可西里 更新时间:2023-11-01 16:14:03 27 4
gpt4 key购买 nike

我在 hdfs 上有我的 avro 序列化数据。现在我正在尝试构建一个搜索界面,我可以在其中查询 avro 数据并获取结果。我可以使用以下方法,但它有一些缺点:

反序列化 avro 数据并将其添加到配置单元存储中,并使用一些 solr/lucene 构建索引层并运行查询。如果 avro 模式有多层怎么办,比如

   {
name: "xyz",
height: "180cm",
Cities_residing: ["X", "Y", "Z"]
Hotels_checkedin : ["X", "Y", "Z"],
itemX : {
itemY : {
itemZ : "546"
}
}
}

现在,存储上述分层数据记录将很困难。另外,我不想复制数据,例如反序列化 avro 记录和存储在某些文档存储中。它引入了很多复制。因此,我正在寻找一个针对 avro 序列化数据(具有多个层次结构)的搜索工具。如果现有工具已经解决了这个问题。请指出那些。

最佳答案

如果您使用 Java,SortedKeyValueFile可能是一个值得探索的替代方案。目前,我还不知道 python 或 C/C++ 中有类似的实现。这显然不像 BigQuery 那样通用;但是,它可能会解决您只需要在文件中按键查询的用例。

关于hadoop - 在 avro 序列化数据上构建搜索层索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25891273/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com