gpt4 book ai didi

hadoop - 加载文件时避免解析

转载 作者:行者123 更新时间:2023-12-02 21:51:32 25 4
gpt4 key购买 nike

假设我有以下文件(input.txt):

1   2   sometext1
2 3 sometext2
3 4 sometext3
4 5 sometext4

即制表符分隔的文件,其中每行由代表 Integer的两个字符串和代表任意文本的第三个字符串组成。

此文件是 PigLatin脚本的输入:
input = load 'input.txt' as (a:int, b:int, c:chararray);

我的假设是Pig会浪费时间解析文本文件以生成相应的整数。我对么?

我想在二进制文件中存储三个整数的二进制表示形式。

如何使Pig理解此类二进制文件?我应该简单地扩展 LoadFunc还是需要使用 BinStorage

最佳答案

您害怕在这里浪费多少时间?假设脚本的其余部分执行任何有意义的操作,或者您的文件足够大(以至于IO很严重),则与其他所有操作相比,解析工作可以忽略

关于hadoop - 加载文件时避免解析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20382565/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com