gpt4 book ai didi

apache-spark - Spark 导入 Parquet 文件将字符串转换为 bytearray

转载 作者:行者123 更新时间:2023-12-04 05:48:17 24 4
gpt4 key购买 nike

我有一个未压缩的 Parquet 文件,其中包含“爬虫日志”类型的数据。

我通过 PySpark 将它导入 Spark 作为
sq = SQLContext(sc)
p = sq.read.parquet('/path/to/stored_as_parquet/table/in/hive')
p.take(1).show()

这显示了源数据中的字符串转换为
Row(host=bytearray(b'somehostname'), (checksum=bytearray(b'stuff'))...)
当我做 p.dtypes 我看到
((host binary), (checksum binary) ....).
我能做些什么来避免这种转换,或者我如何转换回我需要的

即当我做 p.dtypes 我想看
((host string), (checksum string) ....)
谢谢。

最佳答案

我遇到了同样的问题。添加

sqlContext.setConf("spark.sql.parquet.binaryAsString","true")

在创建我的 SqlContext 之后,就为我解决了它。

关于apache-spark - Spark 导入 Parquet 文件将字符串转换为 bytearray,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32344509/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com