hadoop - 如何在hadoop中处理长度前缀文件-6ren

hadoop - 如何在hadoop中处理长度前缀文件

转载作者：可可西里更新时间：2023-11-01 14:50:32

24

4

我有一个巨大的 LPF(长度前缀文件)要由 Hadoop 处理。

LPF 文件的格式为:(第 1 条记录的大小，4 字节)(第 1 列的大小，2 字节)(第 1 列)(第 2 列的大小)(第 2 列)………….(第 n 列的大小) (第 n 列)(第二条记录的大小)(第一列的大小)(第一列)…………等等……

但是似乎没有合适的 InputFormat 可以随时读取各个记录，因为没有分隔符来分隔各个记录或列。

输入拆分必须发生在其中一条记录的末尾，这样其他 block 中就不会存在半条记录。否则 Record Reader 必须知道一半记录的结尾，以便它可以将它与另一半结合起来。请建议一些读取和处理LPF文件的方法

最佳答案

为什么您无法拆分此文件？有许多具有可变长度条目的文件格式，它们在 Hadoop 中分割得很好。

查看 InputFormat 和 RecordReader 类，看看是否可以实现自定义版本。如果是这样，这就是您应该做的。

关于hadoop - 如何在hadoop中处理长度前缀文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13678194/

24

4

0

文章推荐： html - 在 map 上绘制飞行路线是否有任何标准程序？

文章推荐： windows - Jenkins 并从 Windows 批处理返回代码

文章推荐： hadoop - Pig 在存储输出时删除括号

elasticsearch - Elasticsearch 错误-[前缀]查询不支持[前缀]
发布以下查询时，出现错误响应 {"error":{"root_cause":[{"type":"parsing_exception","reason":"[prefix] query does not
django - 找不到平台无关的库 <前缀> 考虑将 $PYTHONHOME 设置为 <前缀>[ :]
我对 Python 和 Django 真的很陌生......我想做的是: 在 Mac OS 10.6.8 上安装 Python 2.7 安装 pip 安装 Django 安装 virtualenvwr
前缀，中缀，后缀表达式
前缀表达式前缀表达式又称波兰式，前缀表达式的运算符位于操作数之前。例如： ( 3 + 4 ) × 5 − 6 (3+4)×5-6(3+4)×5−6 对应的前缀表达式就是 - × + 3 4 5 6
unicode - 英特尔C编译器和L”前缀
如何在Intel C编译器中定义俄语字符串？在MSVS 2008中，我这样做： _wsetlocale(LC_ALL, L"Russian"); wprintf(L"текст"); 而且有效。在
makefile - 在Makefile中设置环境变量时@前缀
这是我到目前为止所得到的: SPECS = $(shell find spec -iname "*_spec.js") spec: @NODE_ENV=test \ @NODE_PAT
clojure - 前缀::是什么意思
我看到了下面的前缀::它代表什么？ :abc 是一个关键字，但是 ::abc 是什么？谢谢，穆尔塔扎最佳答案假设当前命名空间是my.app。然后， ::x 是 :my.app/x 的阅读器简写，
javascript - 如何从嵌入中排除 `+` 前缀
我为我的 discord 创建了一个建议功能，用户可以说 +suggest(建议)，它会自动发布到另一个 channel 。有些事情我需要帮助: 将“建议由用户制作”放入标题中，而不是在单独的行中。
c -++(前缀)返回左值吗？
#include int main() { int a=1; printf("%d",(++a)++); return 0; } 此代码出现错误 error: invalid lvalue in
Java:前缀 - 后缀问题
我在使用前缀和后缀运算符对数字执行减法时遇到了一个小问题。这是我的程序: public class postfixprefix { public static void main (Strin
html - 前缀 - 这是什么意思
当我在 Android native 浏览器中运行 HTML5 兼容性测试时，它会看到 IndexedDB 支持标记为“Prefixed”，而在 Chrome 和其他浏览器中则标记为“Yes”。我知道
c++ - 运算符重载--(前缀)
我试过重载运算符--前缀，但我有错误，有人帮忙吗？ #include #include "Circulo.h" using namespace std; int main() { //par
javascript - 如何在每一行前面加上 `>` 前缀
我正在尝试在我正在制作的这个论坛上创建一个引用功能，当我按下引用时，我只需用 Markdown 填充 textarea ，但唯一的事情是我需要在每行的 markdown 前面加上 > 前缀，这样它就是
c++ - 带线程的运算符++(前缀)
friend 之间打赌。sum 变量定义为全局变量。我们有 2 个线程在循环 1..100 上运行并在每个循环中将 sum 递增 1。打印什么？“和=”？ int sum = 0; void fun
c++ - 前缀/后缀增量
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Post Increment and Pre Increment concept? 谁能明确解释前缀增量与后
c++ - 有没有办法避免在模板基类成员前面加上 `this` 前缀？
从模板类继承时，我需要在派生类中访问的所有基类成员前面加上this: template struct X{ int foo; void bar(); }; template struct
c++ - 为什么通过函数指针调用成员函数时需要 "this"前缀？
据我所知，在 C++ 中，在同一类的函数成员中调用另一个成员函数不需要“this”前缀，因为它是隐式的。但是，在使用函数指针的特定情况下，编译器需要它。仅当我通过 func 指针为调用包含“this”
c++ - 我们是否需要在嵌套类型的成员参数前加上 "::"前缀？
例如，考虑以下名称冲突的地方 nest1 : template class nest1 {}; class cls { public: template class nest1 {};
c++ - 指针算术递增后缀/前缀
我无法理解下面一段特定代码的逻辑。 int i[] = { 21, 4, -17, 45 }; int* i_ptr = i; std::cout << (*i_ptr)++ << std::endl
php - 数据库搜索减去 "The"前缀
有人能给我指出正确的方向吗，我目前有一个可搜索的数据库，但遇到了按标题搜索的问题。如果标题以“The”开头，那么显然标题将位于“T”部分，避免搜索“The”的好方法是什么？我应该连接两个字段来显示标
ios - 前缀 - 配置有问题
我在 2 小时前创建了一个新项目。以与我的旧(不同)项目相同的方式配置它，一切正常。在我的 podfile 中我有: pod 'CocoaLumberjack', '2.0.0-rc2' 如果我在

首页

博学

6Ren·AI

商城

hadoop - 如何在hadoop中处理长度前缀文件