gpt4 book ai didi

hadoop - 比较Hive与Pig在结构化数据上的可用性

转载 作者:行者123 更新时间:2023-12-02 20:10:13 26 4
gpt4 key购买 nike

我们最近才刚开始使用Pig,并且在弄清其在结构化数据上的语法方面遇到了挑战。给定下面的示例数据模型,哪个问题更适合Hive或Pig或“Other”?

资料模型:

Item
> id<long>
> description<string>
> source<collection of following>
> source_id<long>
> source_name<string>
> relevant_link<collection of strings>
> link_id<string>

Link
> link_id<string>
> metadata1<string>
> metadata2<string>

常用操作:
  • 将各种格式的数据导入为此格式
  • 查询(排序,汇总,采样,汇总)数据(最好由一个不会全都是语言专家的团队)
  • 使用各种过滤器加入和导出各种格式

  • 这是大型数据集(150-500 GB原始文本数据)的基本数据操作。

    问题/问题:
  • pig 在链接上给我们带来了挑战( pig 中的收藏品是成袋的袋子,变得非常抽象)。
  • Hive是否擅长/更好地管理这些收藏集?
  • 我们期望进行许多“数据转换” Activity ,但是由于我们可以轻松地以类似SQL的格式容纳数据,这是否使Hive成为易于使用的解决方案?
  • 最佳答案

    您可以尝试Pangool,Map Reduce代码是Java的,它简化了结构化数据的工作,依赖于元组和序列化的概念。对于您的特殊情况,您可以将Custom Serialization与基本上是JSON的Avro对象一起使用。
    它还简化了编写减少边连接和需要由不同映射器处理的多个输入的工作。

    因此,一个用于Link的Pangool映射器发出link_id作为键,另一个用于Item的Pangool映射器自身发出link_id。但这可能很慢。

    如果可以进行映射侧连接(链接文件足够小以容纳内存),则可以将其放入主代码中的Serializable Java对象中,然后将其传递给映射器,这使工作变得非常轻松。

    关于hadoop - 比较Hive与Pig在结构化数据上的可用性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16973647/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com