gpt4 book ai didi

hadoop - 如何在hadoop级联中加载固定宽度的文件

转载 作者:可可西里 更新时间:2023-11-01 16:12:33 25 4
gpt4 key购买 nike

如何在hadoop级联中加载固定宽度的文件,还是根据字段的特殊性使用外部UDF来加载文件?hadoop级联中如何调用外部UDF?

最佳答案

据我所知,没有固定宽度的水龙头。自定义水龙头实现起来很痛苦(相信我,我知道)。所以我们不用担心。

最简单的做法是使用 TextLineScheme用你的水龙头。输入管道应该做的第一件事是转到自定义 Function .您输入的方案是一个包含两列的元组:偏移量和行。您想要使用该线(忽略偏移量)。解析列并返回带有 Fields 的新 TupleEntry 的函数由您的实际数据定义。当您扩展 BaseOperation , 传递你的函数将在 super(new Fields("FirstName", "LastName", "etc));

中返回的字段

完成此操作后,将函数的输出管道传递给下游流程的其余部分。

关于hadoop - 如何在hadoop级联中加载固定宽度的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28193003/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com