gpt4 book ai didi

scala - 在 Spark 中处理 (OSM) PBF 文件

转载 作者:行者123 更新时间:2023-12-01 11:22:14 25 4
gpt4 key购买 nike

OSM 数据以 PBF 格式提供。有专门的库(例如 https://github.com/plasmap/geow 用于解析此数据)。

我想将此数据存储在 S3 上并将数据解析为 RDD 作为 EMR 作业的一部分。

实现这一目标的直接方法是什么?我可以将文件提取到主节点并在本地处理吗?如果是这样,我会创建一个空的 RDD 并在从输入文件解析流事件时添加到它吗?

最佳答案

一种解决方案是跳过 PBF。一种 Spark 友好的表示是 Parquet。在 this blog post它展示了如何将 PBF 转换为 Parquet 以及如何在 Spark 中加载数据。

关于scala - 在 Spark 中处理 (OSM) PBF 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40753958/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com