gpt4 book ai didi

hadoop - nutch查看存储在hbase中的hbase数据的方法

转载 作者:可可西里 更新时间:2023-11-01 16:59:36 26 4
gpt4 key购买 nike

我正在使用 apache nutch 将数据存储在使用 hdfs 作为其文件系统的 hbase 中。我想知道它在 hbase 等中存储了哪些文档。如何从 hbase 中读取该数据,例如一些pdf存储在hbase中。我想读它。我会怎么做。

请指导我?

最佳答案

网页和文档存储为一行。如果您知道您的文档链接,您可以在 hbase shell 或其他工具(hive pig 等)上获取它。Nutch 将 URL 存储为反向 URL。

例如“http://bar.foo.com:8983/to/index.html?a=b”变成“com.foo.bar:8983:http/to/index.html?a=b”。

关于Hbase Shell的信息http://wiki.apache.org/hadoop/Hbase/Shell

关于hadoop - nutch查看存储在hbase中的hbase数据的方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25973031/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com