gpt4 book ai didi

hadoop - 如何在 Google Cloud Storage 中存储大量小的 HTML 文件以优化 Dataproc?

转载 作者:可可西里 更新时间:2023-11-01 16:35:33 26 4
gpt4 key购买 nike

我有兴趣在 HTML 解析任务上试用 Google Cloud Dataproc。我们目前在谷歌存储中有很多(200M+)小的 HTML 文件。我们希望能够将所有这些文件提取到 Hadoop(MapReduce 或 Spark)中进行处理。

但是,我的理解是 Dataproc 在列出和读取大量小文件时性能会很差,而且 Hadoop 通常也是如此。所以我的问题是,我应该如何将大量小文件打包成更大的文件,以便能够高效地列出和读取?

我考虑过像 TAR/ZIP 这样的标准东西,但我的理解是这些东西是不可分割的,因此并发性是有限的。

是否有其他推荐的格式用于此类内容?我考虑过使用 avro,并且只是将 HTML 存储为 avro 记录中的字节字段,但我认为 avro 并不真正适用于这种用例。

最佳答案

您可以使用 Hadoop SequenceFile按照建议解决此问题here .

关于hadoop - 如何在 Google Cloud Storage 中存储大量小的 HTML 文件以优化 Dataproc?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53857631/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com