gpt4 book ai didi

Hadoop 使用文件夹结构作为输入

转载 作者:可可西里 更新时间:2023-11-01 16:34:39 24 4
gpt4 key购买 nike

我是一个尝试使用 Hadoop 的初学者,我想虽然我了解一般的 map-reduce 内容,但我似乎在开始时遗漏了一些东西。

基本上我正在尝试使用 hadoop 解析一个网站(本地)并得到链接结构(以便稍后我可以计算一些页面排名)。

因此,输入是一个文件夹结构(包含子文件夹和文件),输出目前应该是每个文件和一个链接到它的文件列表。

我应该使用什么输入格式? FileInputFormat 似乎不起作用(遇到文件夹时出现异常 - 说它是目录)。究竟有没有InputFormat可以输入这样的文件夹结构?

如果不是...我应该以某种方式预处理输入数据吗?意思是我应该将每个 HTML 文件取出到一个目录中并从那里查看吗?或者,有没有一种方法可以编写满足我需要的 InputFormat?

最佳答案

Actually is there such an InputFormat that allows for inputing such folder structures?

所有的 FileInputFormats 都以 Path 作为输入,可以是目录或文件。

The FileInputFormat doesn't seem to work (I get an exception upon encountering a folder - saying it is a directory).

JIRA已在某些版本(0.21、0.22、0.23 和主干)中得到修复。 o.a.h.mapred.FileInputFormat 应该实现 addInputPathRecursively 方法。另外,注意到它没有在新的 API (o.a.h.mapreduce.FileInputFormat) 中实现。这是 code来自 trunk 的 o.a.h.mapred.FileInputFormat 类。

顺便说一句,您使用的是什么版本?

Basically I'm trying to parse a website (local) using hadoop and have as result the link structure (so that later I can calculate some page rank).

由于媒体的关注/炒作,Hadoop 被用于所有事情。 Hadoop 原样适用于某些类型的问题。考虑使用 Apache HamaGiraph用于图形处理。请注意,两者都在孵化器中,文档也很少。

关于Hadoop 使用文件夹结构作为输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8839402/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com