gpt4 book ai didi

python - HDFS的图像数据帧用于图像分类

转载 作者:行者123 更新时间:2023-12-02 20:46:21 25 4
gpt4 key购买 nike

我正在尝试使用Python和Spark编写图像分类算法,我正在关注this教程,该教程取材于官方数据砖documentation,在本地运行时效果很好。

我现在的问题是,在群集上转移算法时,我必须以.jpg格式从HDFS上的两个文件夹中加载图像,而在示例中找不到以本地方式创建数据框的方法。

我正在寻找此代码的替代品:

from sparkdl import readImages
jobs_df = readImages(img_dir + "/jobs").withColumn("label", lit(1))

最佳答案

它应该与从本地读取文件几乎相同。

下面是该库的实现。它在内部使用binaryFiles api加载二进制文件。 API文档(binaryFiles)表示它也支持Hadoop文件系统。

 rdd = sc.binaryFiles(path, minPartitions=numPartitions).repartition(numPartitions) 

希望这可以帮助。

关于python - HDFS的图像数据帧用于图像分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47874622/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com