gpt4 book ai didi

以奇怪的格式导出/复制到 HDFS 的 CSV 数据

转载 作者:可可西里 更新时间:2023-11-01 14:46:28 25 4
gpt4 key购买 nike

我正在使用 spark 作业从声明区域读取 csv 文件数据,并使用以下代码行将该数据复制到 HDFS 中:

val conf = new SparkConf().setAppName("WCRemoteReadHDFSWrite").set("spark.hadoop.validateOutputSpecs", "true");

val sc = new SparkContext(conf)
val rdd = sc.textFile(source)

rdd.saveAsTextFile(destination)

csv 文件包含以下格式的数据:

CTId,C3UID,region,product,KeyWord

1,1004634181441040000,East,Mobile,NA

2,1004634181441040000,West,Tablet,NA

而当数据进入 HDFS 时,它采用以下格式:

CTId,C3UID,region,product,KeyWord

1,1.00463E+18,East,Mobile,NA

2,1.00463E+18,West,Tablet,NA

我找不到这背后的任何正当理由。任何形式的帮助将不胜感激。

问候,布佩什

最佳答案

发生的情况是因为您的 C3UID 是一个很大的数字,它被解析为 Double,然后以标准的 Double 表示法保存。您需要修复架构,并确保将第二列读取为 Long、BigDecimal 或 String,这样字符串表示形式就不会发生变化。

关于以奇怪的格式导出/复制到 HDFS 的 CSV 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44693564/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com