gpt4 book ai didi

csv - 使用 pyspark 处理 csv 文件中字段内的逗号

转载 作者:行者123 更新时间:2023-12-04 01:27:37 25 4
gpt4 key购买 nike

我有一个 csv 数据文件,在列值中包含逗号。例如,

value_1,value_2,value_3  
AAA_A,BBB,B,CCC_C

这里,值是“AAA_A”、“BBB、B”、“CCC_C”。但是,当试图用逗号分割行时,它给了我 4 个值,即“AAA_A”、“BBB”、“B”、“CCC_C”。

在 PySpark 中用逗号分割行后如何获得正确的值?

最佳答案

使用 databriks 中的 spark-csv 类。

默认情况下,引号之间的分隔符 (") 将被忽略。

例子:

val df = sqlContext.read
.format("com.databricks.spark.csv")
.option("header", "true") // Use first line of all files as header
.option("inferSchema", "true") // Automatically infer data types
.load("cars.csv")

欲了解更多信息,请查看 https://github.com/databricks/spark-csv

如果您的引号是 (') 实例 ("),则可以使用此类进行配置。

编辑:

对于python API:
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('cars.csv')

此致。

关于csv - 使用 pyspark 处理 csv 文件中字段内的逗号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35570603/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com