gpt4 book ai didi

mongodb - 使用 mongoimport 从 HDFS 导入数据到 MongoDB

转载 作者:可可西里 更新时间:2023-11-01 09:53:07 26 4
gpt4 key购买 nike

我在 HDFS 上有一组文件。我可以直接将这些文件加载​​到 mongoDB(使用 mongoimport),而无需将文件从 HDFS 复制到我的硬盘吗?

最佳答案

您尝试过 MongoInsertStorage 吗?

您可以简单地使用 pig 加载数据集,然后使用 MongoInsertStorage 直接转储到 Mongo 中。它在内部启动了一堆映射器,这些映射器完全按照“David Gruzman 在此页面上的回答”中提到的进行操作。这种方法的优点之一是,由于多个映射器同时插入到 Mongo 集合中,您可以实现并行性和速度。

这里是 pig 可以做什么的粗略说明

REGISTER mongo-java-driver.jar  
REGISTER mongo-hadoop-core.jar
REGISTER mongo-hadoop-pig.jar

DEFINE MongoInsertStorage com.mongodb.hadoop.pig.MongoInsertStorage();

-- you need this here since multiple mappers could spawn with the same
-- data set and write duplicate records into the collection
SET mapreduce.reduce.speculative false

-- or some equivalent loader
BIG_DATA = LOAD '/the/path/to/your/data' using PigStorage('\t');
STORE BIG_DATA INTO 'mongodb://hostname:27017/db USING MongoInsertStorage('', '');

更多信息在这里 https://github.com/mongodb/mongo-hadoop/tree/master/pig#inserting-directly-into-a-mongodb-collection

关于mongodb - 使用 mongoimport 从 HDFS 导入数据到 MongoDB,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9860468/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com