gpt4 book ai didi

python - GCP 中的 PySpark 内核 - unicode 字符串

转载 作者:行者123 更新时间:2023-12-01 06:48:18 26 4
gpt4 key购买 nike

我有一个数据框,其中有一列包含字符串。当我调用该函数时:

df = spark.read.csv(path, header=True).show()

我得到了正确的“ View ”,但是当我打印时

print("dataframe as a RDD object (list of Row objects):\n\t", df.collect())

结果是带有 unicode 符号的字符串,如 u'mystring'

如何解决这个问题

最佳答案

在 Python 2.x 中,有 strunicodeu'mytext' 包围的对象是 Unicode。

从 unicode 转换为 str:

mystr = unistr.encode('utf-8')

将 str 转换为 unicode:

unistr = mystr.decode('utf-8')

在 Python 2.x 中,我通常将字符串保留为 Unicode,直到需要将它们写入文件等。在 Python 3.x 中,所有字符串都是 Unicode。

以下文档将有助于理解:

Unicode HOWTO

关于python - GCP 中的 PySpark 内核 - unicode 字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59128900/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com