java - Hadoop处理WARC文件-6ren

java - Hadoop处理WARC文件

转载作者：行者123 更新时间：2023-12-02 19:25:27

24

4

我对Hadoop文件拆分和多个映射器有一个一般性问题。我是Hadoop的新手，正在尝试了解如何设置以获得最佳性能。我的项目当前正在处理GZIP格式的WARC文件。

使用当前的InputFileFormat，文件将发送到一个映射器，并且不会拆分。我了解这是加密文件的正确行为。在运行作业之前将文件解密作为中间步骤是否会对性能产生好处，以允许拆分作业并因此使用更多的映射器？
那有可能吗？拥有更多的映射器会导致更多的延迟开销，还是拥有一个映射器会更好？谢谢你的帮助。

最佳答案

尽管WARC文件已压缩，但它们是可拆分的(参见Best splittable compression for Hadoop input = bz2?)，因为每个记录都有其自己的deflate块。但是记录偏移量必须事先知道。

但这真的有必要吗？通用抓取WARC文件的大小均为1 GB，应在不超过上限的情况下正常处理。 15分钟。考虑到启动映射任务的开销，这是映射器运行的合理时间。例如，一个映射器还可以处理一些WARC文件，但是重要的是要对输入的WARC文件列表进行足够的分割，以便所有节点都在运行任务。在Hadoop上处理单个WARC文件将意味着很多不必要的开销。

关于java - Hadoop处理WARC文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40326258/

24

4

0

文章推荐： docker - 从Docker容器连接到主机套接字

文章推荐： python - 如何将python库下载到单独的文件夹中？

文章推荐： Python Kafka消费者读取已读消息

java - 我如何解析 WARC 文件？
我从 this page 下载 ClueWeb09_English_Sample.warc 文件然后我使用 the following web page 的给定代码将 warc 文件的数据写入文本文件
org.archive.io.warc.WARCReader类的使用及代码示例
本文整理了Java中org.archive.io.warc.WARCReader类的一些代码示例，展示了WARCReader类的具体用法。这些代码示例主要来源于Github/Stackoverflow
org.archive.io.warc.WARCWriter类的使用及代码示例
本文整理了Java中org.archive.io.warc.WARCWriter类的一些代码示例，展示了WARCWriter类的具体用法。这些代码示例主要来源于Github/Stackoverflow
wget --warc-file --recursive，防止写入单个文件
我运行 wget 来创建一个 warc 存档，如下所示: $ wget --warc-file=/tmp/epfl --recursive --level=1 http://www.epfl.ch/
Python 无法完全读取 "warc.gz"文件
对于我的工作，我抓取网站并将它们写入 gzipped 网络存档(扩展名为“warc.gz”)。我使用 Python 2.7.11 和 warc 0.2.1 库。我注意到对于大多数文件，我无法使用 w
python - 在 python 中将网页和相关资源下载到 WARC
我有兴趣下载一堆网页以供日后分析。我想做两件事: 将页面和相关资源(图像、与文章相关的多个页面等)下载到 WARC 文件。更改所有链接以指向现在的本地文件。我想用 Python 来做。有什么好的
java - 在 StormCrawler 上获取拓扑以正确写入 warc 文件
stormcrawler maven 原型(prototype)似乎与我的项目中的 warc 模块配合得不太好。目前它仅创建空的 0 字节文件，其名称类似于“crawl-20180802121925-
python - 从 WARC.gz 文件中提取 header
我在网站上搜索了很多次，但找不到我真正需要的东西。我有包含数据的 web.warc.gz 文件，我需要提取 WARC header 。我已经安装了 Tomcat 和 Wayback (1.6)，试图使
python - 根据 url 从 WARC 文件中检索记录
我必须根据 Target-URI 从 *.warc.gz 文件中检索记录。文档说这需要创建外部 CDXJ 索引文件。我试过以 gzip.open() 打开文件并执行 seek(offset)，但查找
python - 映射一系列 warc.gz 文件，EMR
我一直在使用用 Python 编写的映射器和缩减器在 AWS/EMR 中运行流式处理步骤，以映射 Common Crawl 中的一些文件以进行情绪分析。我正在从较旧的通用爬网 textData 格式
org.archive.io.warc.WARCReader.setDigest()方法的使用及代码示例
本文整理了Java中org.archive.io.warc.WARCReader.setDigest()方法的一些代码示例，展示了WARCReader.setDigest()的具体用法。这些代码示例主
org.archive.io.warc.WARCReader.iterator()方法的使用及代码示例
本文整理了Java中org.archive.io.warc.WARCReader.iterator()方法的一些代码示例，展示了WARCReader.iterator()的具体用法。这些代码示例主要来
org.archive.io.warc.WARCReader.isDigest()方法的使用及代码示例
本文整理了Java中org.archive.io.warc.WARCReader.isDigest()方法的一些代码示例，展示了WARCReader.isDigest()的具体用法。这些代码示例主要来
org.archive.io.warc.WARCReader.get()方法的使用及代码示例
本文整理了Java中org.archive.io.warc.WARCReader.get()方法的一些代码示例，展示了WARCReader.get()的具体用法。这些代码示例主要来源于Github/S
org.archive.io.warc.WARCReader.getIn()方法的使用及代码示例
本文整理了Java中org.archive.io.warc.WARCReader.getIn()方法的一些代码示例，展示了WARCReader.getIn()的具体用法。这些代码示例主要来源于Gith
org.archive.io.warc.WARCReader.close()方法的使用及代码示例
本文整理了Java中org.archive.io.warc.WARCReader.close()方法的一些代码示例，展示了WARCReader.close()的具体用法。这些代码示例主要来源于Gith
org.archive.io.warc.WARCReader.getOptions()方法的使用及代码示例
本文整理了Java中org.archive.io.warc.WARCReader.getOptions()方法的一些代码示例，展示了WARCReader.getOptions()的具体用法。这些代码示
org.archive.io.warc.WARCReader.isStrict()方法的使用及代码示例
本文整理了Java中org.archive.io.warc.WARCReader.isStrict()方法的一些代码示例，展示了WARCReader.isStrict()的具体用法。这些代码示例主要来
org.archive.io.warc.WARCReader.getReaderIdentifier()方法的使用及代码示例
本文整理了Java中org.archive.io.warc.WARCReader.getReaderIdentifier()方法的一些代码示例，展示了WARCReader.getReaderIdent
org.archive.io.warc.WARCReader.setStrict()方法的使用及代码示例
本文整理了Java中org.archive.io.warc.WARCReader.setStrict()方法的一些代码示例，展示了WARCReader.setStrict()的具体用法。这些代码示例主

首页

博学

6Ren·AI

商城

java - Hadoop处理WARC文件