gpt4 book ai didi

google-cloud-bigtable - 使用Google Dataproc导入Bigtable中的CSV数据

转载 作者:行者123 更新时间:2023-12-02 01:33:16 25 4
gpt4 key购买 nike

我正在尝试使用 Dataproc 集群的实例将大型 CSV 文件导入 HDFS,然后将它们导出到 SequenceFile格式,然后最后按照此处所述将最新版本导入 Bigtable: https://cloud.google.com/bigtable/docs/exporting-importing

我最初将 CSV 文件作为 Hive 中的外部表导入,然后通过将它们插入到 SequenceFile 支持的表中来导出它们。

但是(可能是因为 dataproc 似乎与 Hive 1.0 一起提供?),我遇到了此处提到的转换异常错误:Bigtable import error

我似乎无法在 dataproc 主虚拟机上启动和运行 HBase shell 或 ZooKeeper,因此我无法从 CLI 运行简单的导出作业。

  1. 是否有其他方法可以从 dataproc 导出兼容 bigtable 的序列文件?

  2. 从 Dataproc VM 主节点运行 HBase 和 ZooKeeper 的正确配置是什么?

最佳答案

您链接到的导入说明是从现有 HBase 部署导入数据的说明。

如果您使用的输入格式是 CSV,则创建 SequenceFiles 可能是一个不必要的步骤。如何编写一个 Hadoop MapReduce 来处理 CSV 文件并直接写入 Cloud Bigtable?数据流也很适合这里。

看看这里的示例: https://github.com/GoogleCloudPlatform/cloud-bigtable-examples/tree/master/java

关于google-cloud-bigtable - 使用Google Dataproc导入Bigtable中的CSV数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32868700/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com