gpt4 book ai didi

python - 如何使用python读取hadoop映射文件?

转载 作者:行者123 更新时间:2023-12-02 21:15:50 25 4
gpt4 key购买 nike

我有使用DefaultCodec进行块压缩的 map 文件。映射文件是由Java应用程序创建的,如下所示:

MapFile.Writer writer =
new MapFile.Writer(conf, path,
MapFile.Writer.keyClass(IntWritable.class),
MapFile.Writer.valueClass(BytesWritable.class),
MapFile.Writer.compression(SequenceFile.CompressionType.BLOCK, new DefaultCodec()));

该文件存储在hdfs中,我需要在另一个使用python的应用程序中从中读取一些键,值。我找不到任何可以做到这一点的图书馆。您有什么建议和例子吗?

谢谢

最佳答案

我建议使用Spark,它具有一个名为textFile()的功能,该功能可以从HDFS读取文件并将其转换为RDD,以便使用其他Spark库进行进一步处理。

这是文档:Pyspark

关于python - 如何使用python读取hadoop映射文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38800430/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com