gpt4 book ai didi

python - 在 pyspark 中读取 TSV 文件

转载 作者:行者123 更新时间:2023-12-05 01:36:37 24 4
gpt4 key购买 nike

在 pyspark 中读取带有 header 的 .tsv 文件并将其存储在 spark 数据框中的最佳方法是什么。

我正在尝试使用“spark.read.options”和“spark.read.csv”命令,但没有成功。

谢谢。

问候, git

最佳答案

好吧,如果有可用的 header ,您可以直接读取 tsv 文件而无需提供外部模式:

df = spark.read.csv(path, sep=r'\t', header=True).select('col1','col2')

由于 spark 是惰性计算的,因此它只会读取选定的列。希望对您有所帮助。

关于python - 在 pyspark 中读取 TSV 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61799363/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com