gpt4 book ai didi

amazon-ec2 - 如何在 Spark 中打开 Commoncrawl.org WARC.GZ S3 数据

转载 作者:行者123 更新时间:2023-12-03 16:54:16 26 4
gpt4 key购买 nike

我想从 spark shell 访问 Amazon 公共(public)数据集存储库中的 commoncrawl 文件。文件为 WARC.GZ 格式。

val filenameList = List("s3://<ID>:<SECRECT>@aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2014-41/segments/1410657102753.15/warc/CC-MAIN-20140914011142-00000-ip-10-196-40-205.us-west-1.compute.internal.warc.gz")

// TODO: implement functionality to read the WARC.GZ file here
val loadedFiles = sc.parallelize(filenameList, filenameList.length).mapPartitions(i => i)
loadedFiles.foreach(f => f.take(1))

我现在要实现一个函数来读取 mapPartitions 函数中的 WARC.GZ 格式。这是一个好的方法吗?我问是因为我对 Spark 平台还很陌生,想使用 commoncrawl 语料库的一小部分来实现一个小型演示应用程序。我看到线程中使用了 mapPartitions here .

我是第一次尝试,我尝试使用 sc.textFile("s3://...").take(1) 直接从我自己的计算机打开文件,这导致访问被拒绝错误。 S3 亚马逊公共(public)存储库文件是否只能从 EC2 实例访问?

最佳答案

"Analyzing Web Domain Vulnerabilities" 中有一个示例代码向您展示如何从 Spark 访问 WARC 文件的分析,因为 Spark 支持 Hadoop InputFormat 接口(interface)。代码本身托管在 GitHub 上.

我们希望尽快在 Common Crawl GitHub 存储库中提供示例,就像我们使用 Python 和 Java 为 Hadoop 所做的那样。

关于amazon-ec2 - 如何在 Spark 中打开 Commoncrawl.org WARC.GZ S3 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26957857/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com