gpt4 book ai didi

python - 如何将 pandas 的 DataFrame 转换为 Spark 中的 DataFrame 或 LabeledPoint?

转载 作者:行者123 更新时间:2023-11-28 18:35:52 24 4
gpt4 key购买 nike

我了解到,在使用 spark 数据框时,您会希望将任何数据源直接导入为 spark 数据框。在我的例子中,我需要使用 pandas 函数来破坏表格并创建虚拟变量。因此,在读取数据后,我在我的 .map() 函数中使用了这个函数。

def parsePoint(line):
listmp = list(line.split('\t'))
dataframe = pd.DataFrame(pd.get_dummies(listmp[1:]).sum()).transpose()
dataframe.insert(0, 'status', dataframe['accepted'])
if 'NULL' in dataframe.columns:
dataframe = dataframe.drop('NULL', axis=1)
if '' in dataframe.columns:
dataframe = dataframe.drop('', axis=1)
if 'rejected' in dataframe.columns:
dataframe = dataframe.drop('rejected', axis=1)
if 'accepted' in dataframe.columns:
dataframe = dataframe.drop('accepted', axis=1)
return dataframe

我的 .reduce() 函数是这样的:

parsedData = data.map(parsePoint).reduce(lambda a, b: a.append(b)).fillna(0)

它给了我想要的东西,但现在我需要将这个重组的 pandas 数据框放入 labeledPoints 中,以便我可以将它与 MLlib 算法一起使用。我怎样才能执行与 .toPandas() 函数相反的操作并将 pandas 转换为 spark dataframe 或 labeledPoint?

最佳答案

sqlContext.createDataFrame(PANDASDATA)

关于python - 如何将 pandas 的 DataFrame 转换为 Spark 中的 DataFrame 或 LabeledPoint?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32555462/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com