hadoop - 使用哪种 FileInputFormat 读取 Hadoop 存档文件 (HAR) 文件-6ren

hadoop - 使用哪种 FileInputFormat 读取 Hadoop 存档文件 (HAR) 文件

转载作者：可可西里更新时间：2023-11-01 16:30:14

34

4

我使用命令行实用程序创建了一个 har 文件:hadoop archive。

如何在 mapreduce 或 spark 中读取 HAR 文件的内容？是否有可以理解 HAR 文件的 FileInputFormat？

按照答案...这里是简单的 pig-script 以防其他人感兴趣:

A =     LOAD 'har:///user/me/my.har/*.parquet'  
        USING parquet.pig.ParquetLoader 
        ('key:chararray')
        ;

最佳答案

来自 Hadoop Archives and MapReduce

Using Hadoop Archives in MapReduce is as easy as specifying a different input filesystem than the default file system. If you have a hadoop archive stored in HDFS in /user/zoo/foo.har then for using this archive for MapReduce input, all you need to specify the input directory as har:///user/zoo/foo.har. Since Hadoop Archives is exposed as a file system MapReduce will be able to use all the logical input files in Hadoop Archives as input.

因此，您应该能够使用您将使用的任何 FileInputFormat 来读取相同文件的 HDFS 目录。

关于hadoop - 使用哪种 FileInputFormat 读取 Hadoop 存档文件 (HAR) 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37038046/

34

4

0

文章推荐： hadoop - 为什么hadoop `FileSystem.delete`返回一个 bool 值

文章推荐： angularjs - Angular : why $http GET params encrypted?

文章推荐： angularjs，$http 304 错误，修改数据属性

har - 通过命令行工具从给定的 url 生成 har 文件的详细过程
有人可以建议如何通过linux中的命令行从给定的url生成har文件吗？非常感谢使用的详细工具和指南。谢谢最佳答案您可以使用 phantomjs对于这项工作。 phantomjs example
c# - Browsermob 代理 - HAR 文件不如手动 HAR 完整？
所以，下面是我试用 Browsermob 代理的基本代码，以及生成的输出。问题出在输出上，它似乎 (1) 数量不完整，(2) 不像我在开发工具(Firefox 或 Chrome)中手动检查网络统计信息
无法使用 hadoop fs -ls har ://hdfs-master/tank/zoo. har/查找 Hadoop 归档文件
这是我在 hdfs 上的文件: hadoop fs -ls / Found 5 items -rw-r--r-- 3 hadoop supergroup 25 2016-04-18
http - HAR 解析器和报告工具
是否有任何 HAR(Http 存档)的解析器工具可以生成页面加载时间的 csv 或 excel 输出？我知道有 HAR 查看器，但我需要将输出作为 csv 进行绘图。注意:编写解析器并生成 csv
javascript - 过滤并保存 HAR 文件
背景我正在开发一种工具，该工具可以让用户上传 HAR 文件并不断重复播放它们并收集分析数据，例如随时间变化的平均速度、服务可用性等。我在这里已经有了核心代码，它可以获取 Har 文件并生成在平面文件
javascript - 如何从 HAR 文件中获取总网页响应时间？
在下图中，我想要网页的总响应时间。我似乎无法在文件中找到它 sample HAR file ，即本例中的 38.79s。有谁知道如何得到这个？我将使用 Selenium 以及 Firebug 和 N
.NET Test Harness 它应该有什么
我们有一家软件公司为我们的项目开发代码，.NET Web 服务 (WCF)，我们还支付了测试工具的费用，该测试工具将作为单独的计费任务按日收费。我刚刚加入公司，正在回顾我们从软件公司获得的成果，想知道
java - 有没有办法使用 har 代理捕获取消的请求？
在我的项目中，我有一些 JavaScript 负责跟踪用户操作以优化页面布局。当用户单击某些内容(包括指向其他页面的链接)时，就会执行这些调用。我已经用 Java 编写并基于 Selenium
python - 使用Python数组存储数据(HAR-RV信用风险模型实现)
这是我第一次来到 Stack，也是我第一次接触 Python。我正在处理 HAR-RV 模型，尝试运行这个方程，但没有成功将我的操作存储在数组上这是我要计算的内容: r_[t,i] = Y_[t,i
google-chrome - 我得到一个 .har 的空文件
我总是能够生成 .har 文件来帮助开发人员解决问题。但是最近我为此得到了一个空文件!附言我使用 Chrome。最佳答案这是否在所有网站上都会发生？如果没有，请耐心等待文件导出。有时有很多请求需要
python - Splash - Scrapy - HAR 数据
总的来说，我了解如何使用 Scrapy 和 x-path 来解析 html。但是，我不知道如何抓取 HAR 数据。 mport scrapy from scrapy_splash import Spl
google-chrome - Chrome HAR 文件大小限制
环境 Windows 10 Chrome 版本 66.0.3359.181(官方版本)(64 位) 手头的问题出于调试目的，我记录网络流量并将其保存为 HAR 文件。当生成的 HAR 文件很大 (
javascript - 自动化 "Save as HAR with Content"
我熟悉如何使用 Google Chrome Web Inspector 手动将网页保存为包含内容的 HAR 文件。我想自动化这个。在搜索自动生成 HAR 文件的工具时，我找到了一些解决方案，但它们都
将 HTTP 响应从 HAR 文件提取到文件系统
是否有一种工具可以提取 HTTP 响应中出现的文档并将其转储到文件系统，最好使用原始 HTTP 请求中的路径和文件名？最佳答案 https://github.com/outersky/har-too
java - BrowserMobProxy 不会捕获 har 文件中的任何条目
尝试在某些测试页面 localhost:8000 上捕获 http header ，而 HAR 文件在 entry 部分中似乎不包含任何内容。我的代码: BrowserMob
testing - 如何使用 Aqueduct harness 测试文件上传？
我按照 Aqueduct 教程创建测试，但缺少一个我迫切需要的示例；我无法使用我的 Controller 测试文件上传端点。我已经实现了这样的 Controller : class FileCont
Perl - TAP::Harness 和 test_args
我正在使用 TAP::Harness在 perl 中是这样的: $harness = TAP::Harness->new({ formatter_class => 'TAP::Form
perl - 使用 TAP Harness 中的函数而不是测试文件
这是我目前使用 TAP 的测试工具: use TAP::Harness; my $harness = TAP::Harness->new(); $harness->runtests(['sequent
perl - Perl 测试脚本能否检测它是否正在从一个 harness 中并行运行？
问题是: Manipulating external state in a test file reduces the possible parallelism of your test suite.
c++ - Test Harness 要求输入而不是使用所写的内容(作业)
我应该在家庭作业中使用测试工具来检查模块是否正常工作。到目前为止我只做了 2 次测试，但是当我调试程序时，它要求我输入而不是使用我在代码中提供的内容。我做错了什么？ void retirement_e

首页

博学

6Ren·AI

商城

hadoop - 使用哪种 FileInputFormat 读取 Hadoop 存档文件 (HAR) 文件