gpt4 book ai didi

python - 映射一系列 warc.gz 文件,EMR

转载 作者:可可西里 更新时间:2023-11-01 16:01:49 26 4
gpt4 key购买 nike

我一直在使用用 Python 编写的映射器和缩减器在 AWS/EMR 中运行流式处理步骤,以映射 Common Crawl 中的一些文件以进行情绪分析。

我正在从较旧的通用爬网 textData 格式迁移到较新的 warc.gz 格式,我需要知道如何为我的 EMR 输入指定一系列 warc.gz 文件。

例如:

在旧格式中,我可以这样指定文本数据文件的输入范围:

s3://aws-publicdatasets/common-crawl/parse-output/segment/1341690165636/textData-000[0-9][0-9]

但新格式看起来像这样:

第一个文件:

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-00000-ip-10-236-182-209.ec2.internal.warc.gz

第二个文件:

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-00001-ip-10-236-182-209.ec2.internal.warc.gz

我将如何指定映射这些 warc.gz 文件的范围?

最佳答案

我很确定您可以使用与之前相同的方法。要只阅读您将使用的两个文件:

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-0000[0-1]-ip -10-236-182-209.ec2.internal.warc.gz

此外,由于这些路径比之前的路径更丰富,您还有其他方法来指定要处理的数据集。

CC-MAIN-2016-07 is CC-MAIN-YYYY-ww - 能够指定一组年或周来处理。

CC-MAIN-20160205195359 is CC-MAIN-YYYYMMDDHHmmss - 您可以选择日期或时间范围。

关于python - 映射一系列 warc.gz 文件,EMR,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38250004/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com