gpt4 book ai didi

python - Spark 使用自定义 InputFormat 读取 WARC 文件

转载 作者:可可西里 更新时间:2023-11-01 14:48:37 61 4
gpt4 key购买 nike

我需要通过 Spark 处理一个 .warc 文件,但我似乎无法找到一种直接的方法。我宁愿使用 Python 而不是通过 wholeTextFiles() 将整个文件读入 RDD(因为整个文件将在单个节点处理(?))因此它似乎是唯一的/最好的方法是通过在 Python 中与 .hadoopFile() 一起使用的自定义 Hadoop InputFormat

但是,我找不到执行此操作的简单方法。将 .warc 文件拆分为条目就像拆分 \n\n\n 一样简单;那么我怎样才能做到这一点,而不用像各种在线“教程”中所示那样编写大量额外的(无用的)代码呢?可以全部用 Python 完成吗?

即,如何在不使用 wholeTextFiles 读取整个文件的情况下将 warc 文件拆分为多个条目?

最佳答案

如果分隔符是 \n\n\n 你可以使用 textinputformat.record.delimiter

sc.newAPIHadoopFile(
path ,
'org.apache.hadoop.mapreduce.lib.input.TextInputFormat',
'org.apache.hadoop.io.LongWritable',
'org.apache.hadoop.io.Text',
conf={'textinputformat.record.delimiter': '\n\n\n'}
)

关于python - Spark 使用自定义 InputFormat 读取 WARC 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40586177/

61 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com