gpt4 book ai didi

python - MapReduce在处理大文件,抓取大量数据页面并将其插入Hbase中有用吗?

转载 作者:行者123 更新时间:2023-12-02 21:46:24 24 4
gpt4 key购买 nike

我每天都会运行一些python脚本,这些脚本可以完成以下任务:

parse 1000 text files (gziped) :
~ 100 GB
30 Millions rows
Crawl some data from many websites :
40 Millions rows
Script distributed in 50 Amazon EC2 micro instances (5 scripts / instance)

对于每一行,我都会做一些事情(例如,确保该行不存在,在插入之前在数据库中搜索一些需要添加的数据),最后,将该行插入Hbase和Solr中。
要处理所有这些文件并检索所有这些页面,即使我将脚本分发到多台计算机上也要花费大量时间。

我暂时不使用MapReduce,我的问题是:MapReduce是否对我有用? (我对此有所了解,并且了解到,如果我想对许多文件(例如wordCount示例)进行一些计算,我真的会需要它)

最佳答案

MapReduce是由不同发行商(Apache,Google等)实现的编程范例。如果要使用MapReduce处理数据,则需要配置集群并将数据存储在分布式文件系统(hdfs或Hadoop已知的其他实现)中。
是的,mapreduce作业将在集群中不同节点之间并行处理并节省您的时间。

关于python - MapReduce在处理大文件,抓取大量数据页面并将其插入Hbase中有用吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24909583/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com