python - 将列表的 koalas 列拆分为多列-6ren

python - 将列表的 koalas 列拆分为多列

转载作者：行者123 更新时间：2023-12-05 05:51:34

如何从 df 转到 df1，其中 df 和 df1 如下所示？

df = koalas.DataFrame({"teams": [["SF", "NYG"] for _ in range(7)],'teams1':[np.random.randint(0,10) for _ in range(7)]})
df
output:
    teams   teams1
0   [SF, NYG]   0
1   [SF, NYG]   5
2   [SF, NYG]   8
3   [SF, NYG]   1
4   [SF, NYG]   2
5   [SF, NYG]   8
6   [SF, NYG]   5

df1 = koalas.DataFrame({"col1": ["SF" for _ in range(7)],\
                        "col2": ["NYG" for _ in range(7)],\
                        'teams1':[np.random.randint(0,10) for _ in range(7)]})
df1
output:
    col1 col2 teams1
0   SF  NYG 8
1   SF  NYG 2
2   SF  NYG 9
3   SF  NYG 4
4   SF  NYG 8
5   SF  NYG 3
6   SF  NYG 1

我可以看到 Pandas 的解决方案 here .但是这个解决方案将收集司机端的所有数据，这不是我想要的。我想要一个考拉(pyspark 上的 Pandas )解决方案

最佳答案

我发现仅使用对 worker 操作的函数并且不将所有数据收集到驱动程序的一种方法是

df['teams'] \
  .astype(str) \
  .str.replace('\[|\]', '') \
  .str.split(pat=',', n=1, expand=True)

#     0     1
# 0  SF   NYG
# 1  SF   NYG
# 2  SF   NYG
# 3  SF   NYG
# 4  SF   NYG
# 5  SF   NYG
# 6  SF   NYG

我必须将该列转换为 string 类型，因为它是一个 numpy 数组，而 pyspark 无法对其进行操作。

要获取初始数据框及其其他列，您可以使用简单的concat:

import databricks.koalas as ks

ks.concat([
  df['teams'].astype(str).str.replace('\[|\]', '').str.split(pat=',', n=1, expand=True),
  df.drop(columns='teams')
], axis=1)

#     0     1  teams1
# 0  SF   NYG       2
# 1  SF   NYG       2
# 2  SF   NYG       1
# 3  SF   NYG       1
# 4  SF   NYG       7
# 5  SF   NYG       8
# 6  SF   NYG       6

关于python - 将列表的 koalas 列拆分为多列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/70361477/

文章推荐： mysql - MySQL 服务器是否隐式支持编码转换？

文章推荐：即使在授予权限后，iOS 图像选择器也不会第一次显示图像

文章推荐： javascript - 无限滚动不会在 React/Redux 中保留以前的项目

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 将列表的 koalas 列拆分为多列