hadoop - 哪个是组合小 HDFS block 的最简单方法？-6ren

hadoop - 哪个是组合小 HDFS block 的最简单方法？

转载作者：可可西里更新时间：2023-11-01 14:16:01

25

4

我正在使用 Flume 将日志收集到 HDFS。对于测试用例，我有小文件 (~300kB)，因为日志收集过程是针对实际使用进行缩放的。

有没有什么简单的方法可以将这些小文件组合成更接近 HDFS block 大小 (64MB) 的较大文件？

最佳答案

GNU coreutils split 可以完成这项工作。

如果源数据是行——在我的例子中是——一行大约是 84 字节，那么一个 HDFS block 64MB 可能包含大约 800000 行:

hadoop dfs -cat /sourcedir/* | split --lines=800000 - joined_
hadoop dfs -copyFromLocal ./joined_* /destdir/

或使用 --line-bytes 选项:

hadoop dfs -cat /sourcedir/* | split --line-bytes=67108864 - joined_
hadoop dfs -copyFromLocal ./joined_* /destdir/

关于hadoop - 哪个是组合小 HDFS block 的最简单方法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4429617/

25

4

0

文章推荐： c# - 递归处理文件夹中文件的快速(低级)方法

文章推荐： windows - 所有 Windows 用户都可以编辑的建议文件位置？

文章推荐： hadoop - netezza 是如何工作的？它与 Hadoop 相比如何？

java - 最简单/最简单的浏览器游戏引擎是什么？
我制作手机游戏，但我想为我的社交游戏制作一些简单的基于浏览器的客户端，以便我们可以更轻松地调试。最简单的引擎是什么？我研究了一些 HTML5 引擎和 GWT，但我想听听社区的意见。我正在寻找一种能够
php - 最简单、最小的PHP账户系统
有一个有趣的例子，有人设法为一个只占用 1kb 的论坛创建了一个 PHP 脚本:http://www.nerdparadise.com/blogs/blake/6034/ 我想知道是否有类似的小脚本可
python中yield的用法详解——最简单，最清晰的解释
首先我要吐槽一下，看程序的过程中遇见了yield这个关键字，然后百度的时候，发现没有一个能简单的让我懂的，讲起来真tm的都是头头是道，什么参数，什么传递的，还口口声声说自己的教程是最简单的，最浅显易
android - 什么是最安全，最简单，最通用的proguard配置？
我的proguard配置太糟糕了，我的游戏崩溃了，而且似乎不正常。在我弄清楚到底哪里出了问题之前，最简单，最安全的配置用于全部安装是什么？有没有办法使它仅更改变量名？或者只是混淆代码以使其更难阅读而不
scripting - 获取两个文件之间的相对路径的最佳/最简单/最快的方法？
我正在重构一些 C# 代码，其中一部分是重做一些引用，因为我们正在完全重做文件夹结构。我想做的就是进入 .csproj 或 .sln 文件并修改路径。然而，一些引用文献有类似的路径 "../../.
algorithm - 最简单(和正确)的转义算法是什么？
免责声明:这是一个理论问题，目的是增加我的理解。我知道我总是可以使用像 JSON 库这样的工具来解决问题。假设我想创建一个逗号分隔的值列表，这些值本身可能包含逗号。这些逗号需要先转义。假设我使用 .
delphi - 学习 Delphi 最简单/最有效的方法是什么？
我对编程完全陌生，我选择 Delphi 作为我想学习的编程语言。我基本上想构建使用套接字填写和提交 Web 表单的工具，并且我希望它们也是多线程的。我希望它们功能丰富且性能正确。我并不急于这样做
java - Java中的协作工具-在客户端之间共享数据的最佳(最简单)体系结构？
我正在构建一个协作创作工具，该工具允许用户共同编辑信息空间，该信息空间是节点和链接的可视化。一个客户端应用程序中所做的更改需要反映到所有其他客户端中。由于它是可视化的，因此可能需要经常更新潜在的大数据
php - 对于程序员团队来说，哪种企业级开源 CMS 的学习曲线最陡(最简单)？
作为一家专门开发自定义 CMS 的公司，我们被要求在下一个项目中部署开源 CMS。我们可以自由选择系统。对于熟悉 PHP5 中的 MVC 模型和 OOP 的团队，您会推荐什么？有人告诉我Drupa
java - 在 Java 中检查一段文本是否为垃圾邮件的最佳、最简单、免费的方法是什么？
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
ember.js - Ember.js 最简单/最简单的后端解决方案是什么？
我完全是 Ember.js 菜鸟，需要了解后端注意事项，目前似乎很少有教程涵盖。对于快速原型(prototype)设计，最简单/最简单的后端设置是什么？我看到了一些 ember-rails 教程，但是
java - 最简单、最轻量级的 Java Web 服务引擎？
我正在寻找这种最简单、最简单的方法来启动 Java Web 服务。我曾经使用 Axis-1-on-Tomcat，但是对于 Axis 2，它变得太厚了。我正在寻找的一些偏好: 低内存占用 - 一个包含最
cocoa - 最简单、简约、opengl 3.2 cocoa项目
我多年来一直使用旧版 openGL 和 cocoa，但现在我正在努力过渡到 openGL 3.2。互联网上有几个例子，但它们都太复杂了(许多甚至在 XCode 5.1 下不再编译)。有人可以编写一个最
javascript - 在不使用本地存储的情况下，在手机上存储复选框状态 7 天的最佳(最简单)方法是什么
我正在构建一个简单的应用程序，它应该将开关/支票簿的状态存储 7 天。我遇到的唯一问题是我用来构建所述应用程序的网站不适合手机上的本地存储。没有通过本地存储或链接到在线数据库来存储开关/支票簿状态的良
c++ - 在 C/C++ 上传输数据的最佳(最简单)方法是什么
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 7 个月前。 Improv
c++ - 创建一组 1 个元素的最佳\最简单\最快的方法是什么？ (C++)
有时我需要 1 个用户类型元素的集合(或任何其他容器)并以这种方式创建它们: boost::assign::list_of(typeVariable).convert_to_container >()
asp.net - ASP.NET 最简单/最佳的隐藏/显示客户端隐藏/显示
我的页面上有一个 DropDownList 和一个 TextBox。当用户在 DropDownList 中选择“其他”选项时，我想在其右侧显示一个文本框。我不想使用传统的回发技术。我希望这种交互是在客
html - 制作登录/注册表单的最正确/最简单/最常用/最干净的方法(Divs/其他)
说到编码，我还很年轻，而且我听说过很多关于组织的事情。有些使用部分，有些使用 div，有些使用 div 作为按钮，其他使用 css 中的输入来更改它。作为一个喜欢让他的代码干净、简单易懂但又正确的人，
java - 将 ContentValues 转换为 JSON 字符串的最佳(最简单)方法是什么？
我需要将带有变量项的 ContentValues 转换为 JSON 字符串，我可以将其保存到数据库中，并在以后用作 HTTP 请求的正文。网络上的所有内容都只会以相反的方向进行转换。最佳答案每当您
python - (最简单)在同一台计算机上使用 Python 3.6 和 3.7 的方法？
我的电脑上安装了 Python 3.7。想用tensorflow，发现基本不支持3.7，所以想(也)安装Python 3.6。关于如何做到这一点有什么建议吗？我是否必须卸载 3.7 并将其替换为 3

首页

博学

6Ren·AI

商城

hadoop - 哪个是组合小 HDFS block 的最简单方法？