gpt4 book ai didi

pyspark - 有没有办法将超过 255 列加载到 Spark Dataframe 中?

转载 作者:行者123 更新时间:2023-12-02 10:37:52 25 4
gpt4 key购买 nike

我正在尝试加载具有接近 1000 条记录的站点催化剂数据。下面显示的是我正在使用的代码:

    from pyspark.sql.types import *
from pyspark.sql import Row
sqlContext = SQLContext(sc)
omni_rdd = sc.textFile('hdfs://user/temp/sitecatalyst20170101.gz')
omni_rdd_delim = omni_rdd.map(lambda line: line.split("\t"))
omni_df = omni_rdd_delim.map(lambda line: Row(
col_1 = line[0]
, col_2 = line[1]
, col_3 = line[2]
, ..
, ..
, col_999 = line[998]
)).toDF()

我遇到以下错误:

  File "<stdin>", line 2
SyntaxError: more than 255 arguments

有什么方法可以将所有 1000 列加载到我的数据框中吗?

-V

最佳答案

你可以用这种方法来做。定义一个包含列名称的列表

cols = ['col_0' ,'col_1' ,'col_2' ,.........., 'col_999']

在创建数据帧时使用它

omni_rdd = sc.textFile('hdfs://user/temp/sitecatalyst20170101.gz')
omni_rdd_delim = omni_rdd.map(lambda line: line.split(","))
omni_df = omni_rdd_delim.toDF(cols)

关于pyspark - 有没有办法将超过 255 列加载到 Spark Dataframe 中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43173623/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com