gpt4 book ai didi

hadoop - 有没有办法从目录中的所有 HDFS 文件中获取第一行?

转载 作者:可可西里 更新时间:2023-11-01 15:09:56 26 4
gpt4 key购买 nike

我正在尝试从集群的“/user”目录中的所有 HDFS 文件中获取第一行。

目前我们有一个 Hive 表,其中包含有关这些文件的信息,例如所有者、完整路径(位置)、所有者的公司 ID、文件创建日期、文件读/写权限等。我想添加一个新列到此 Hive 表包含文件的完整第一行。

这就是为什么我要寻找一种方法来提取目录(在我的例子中是“/user”目录)中所有 HDFS 文件的第一行。我可以使用 Spark 实现吗?

最佳答案

尝试这样的事情:

hadoop fs -cat /user/* | head

并四处游玩。

cat工作方式类似于/用于连接。

head读取作为输入提供给它的任何文本的前几行,并将它们写入标准输出(默认情况下是显示屏)

关于hadoop - 有没有办法从目录中的所有 HDFS 文件中获取第一行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46571907/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com