gpt4 book ai didi

hadoop - 内插文本文件的数据(mapreduce)

转载 作者:行者123 更新时间:2023-12-02 21:50:45 25 4
gpt4 key购买 nike

我有一个大文本文件,每一行都有一个时间戳和一些其他数据,如下所示:

timestamp1,data
timestamp2,data
timestamp5,data
timestamp7,data
...
timestampN,data

该文件按时间戳排序,但是连续的时间戳之间可能会有间隔。
我需要填补的空白并编写新文件。

我已经考虑过要读取文件的连续两行。但是我这里有两个问题:
  • 如何读取连续两行? NLineInputFormat或
    他们会读取MultipleLineTextInputFormat对此的帮助
    line1 + line2,line2 + line3,...或line1 + line2,line3 + line4?
  • 当我运行多个映射器时,如何管理行?

  • 还有其他算法/解决方案吗?也许mapreduce无法做到这一点?

    ( pig / hive 解决方案也有效)

    提前致谢。

    最佳答案

    您可以使用类似的方法来处理著名的1 Tb sort
    如果您知道文件中的时间戳值范围,则可以执行以下操作:
    映射器应按某个时间戳区域映射数据(这将是您的关键)。
    Reducers在一个键的上下文中处理数据,您可以在那里实现任何所需的逻辑。

    同样,secondary sort可能有助于获取化简器中按时间戳排序的值。

    关于hadoop - 内插文本文件的数据(mapreduce),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21186866/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com