gpt4 book ai didi

amazon-web-services - 需要有关数据管道创建的设计输入

转载 作者:行者123 更新时间:2023-12-02 20:27:30 24 4
gpt4 key购买 nike

对于所有AWS专家来说,我需要您的帮助来设计和架构大数据数据管道。以下是这种情况:-

我在S3中有大的.gz扩展文件,范围从MB到GB。这些是w3c格式的日志文件压缩格式。现在,我希望将这些文件提取到BigData管道中,从文件中解压缩数据,然后将数据转换为所需的数据列。

各位aws专家能否使用现成的工具或开源工具或任何海关工具为我提供一些设计解决方案,以实现上述数据管道。

最佳答案

根据Spark文档

All of Spark’s file-based input methods, including textFile, support running on directories, compressed files, and wildcards as well. For example, you can use textFile("/my/directory"), textFile("/my/directory/.txt"), and textFile("/my/directory/.gz").



您所需要做的就是将它们读到RDD(无需单独进行解压缩),并且可以进行任何所需的转换。
logsRDD = sc.textFile("s3a://<directory>/*gz")

引用:
https://community.hortonworks.com/questions/81191/spark-210-reading-gz-files-from-an-s3-bucket-or-di.html
http://spark.apache.org/docs/latest/rdd-programming-guide.html

关于amazon-web-services - 需要有关数据管道创建的设计输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55160743/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com