gpt4 book ai didi

hadoop - 在Hadoop中使用Wikipedia数据集进行pagerank

转载 作者:行者123 更新时间:2023-12-02 21:53:44 25 4
gpt4 key购买 nike

我将使用apache hadoop进行wikipedia数据集的页面排名和反向索引项目。我下载了整个wiki dump-http://download.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2,将其解压缩为单个42 Gb .xml文件。我想以某种方式处理此文件,以获取适合在pagerank和反向索引map-reduce算法中输入的数据。请帮忙!任何线索都将有所帮助。

最佳答案

您需要编写自己的Inputformat来处理XML。您还需要实现一个RecordReader,以确保您的输入拆分具有完全形成的XML块,而不仅仅是一行。参见http://www.undercloud.org/?p=408

关于hadoop - 在Hadoop中使用Wikipedia数据集进行pagerank,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17432372/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com