作者热门文章
- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我有兴趣在 HTML 解析任务上试用 Google Cloud Dataproc。我们目前在谷歌存储中有很多(200M+)小的 HTML 文件。我们希望能够将所有这些文件提取到 Hadoop(MapReduce 或 Spark)中进行处理。
但是,我的理解是 Dataproc 在列出和读取大量小文件时性能会很差,而且 Hadoop 通常也是如此。所以我的问题是,我应该如何将大量小文件打包成更大的文件,以便能够高效地列出和读取?
我考虑过像 TAR/ZIP 这样的标准东西,但我的理解是这些东西是不可分割的,因此并发性是有限的。
是否有其他推荐的格式用于此类内容?我考虑过使用 avro,并且只是将 HTML 存储为 avro 记录中的字节字段,但我认为 avro 并不真正适用于这种用例。
最佳答案
您可以使用 Hadoop SequenceFile按照建议解决此问题here .
关于hadoop - 如何在 Google Cloud Storage 中存储大量小的 HTML 文件以优化 Dataproc?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53857631/
我是一名优秀的程序员,十分优秀!