gpt4 book ai didi

xml - 将 XML 放入 HBase 的正确方法

转载 作者:可可西里 更新时间:2023-11-01 16:25:08 25 4
gpt4 key购买 nike

我正在尝试将一些本地存储的 XML 文件放入 HBase(版本 1.1.X)中。

我的目标是使用 MapReduce(无缩减阶段)将这些 XML 的内容作为字符串存储在我的 HBase 表中,而不将它们加载到 HDFS。

这是我的伪代码:

fetchXMLs(path);
XML2OneLineFile();
configureHBase(); // + establishing connection
Map(input, output); //input: one XML file in one line; output : is the Put() of HBase;
closeConnection();

这种解决问题的方法是否正确,或者有更好的方法吗?

ps:我不想从我的 XML 中解析或提取数据,只是存储它们。

提前致谢

最佳答案

不是将 XML 字符串存储到 Hbase,而是将它们存储为 byte[]您可以使用反序列化将其作为对象(序列化类型)检索回来。

您可以使用 Apache commons API 通过以下方式做到这一点。

例如:

byte[] xmlInBytes = org.apache.commons.lang.SerializationUtils.serialize(Serializable obj)

对于反序列化,你可以这样做

static Object deserialize(byte[] objectData) 

如果 Object 可能是 w3c 文档,则应将对象类型转换为 w3c 文档。

我已经用许多类型的对象进行了测试,而不仅仅是 XML。它应该以相同的方式工作。希望这会有所帮助。

关于xml - 将 XML 放入 HBase 的正确方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36894265/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com