gpt4 book ai didi

hadoop - 用hadoop MR替换输入文件中的文本

转载 作者:行者123 更新时间:2023-12-02 20:13:30 25 4
gpt4 key购买 nike

我是MR和Hadoop方面的新手。
我写了一个MR,用于在csv文件中查找缺失的文件,并且工作正常。
现在我有一个用例,我需要解析一个csv文件并使用About类别对其进行编码。

例如:“11,abc,xyz,51,61,78”,“11,adc,ryz,41,71,38”,............

现在必须将其替换为“1,abc,xyz,5,6,7”,“1,adc,ryz,4,7,3”,............。

在这里,我正在做10的mod,但是会有不同的mod情况。
数据大小以GB为单位。

我想知道如何替换输入内容。用MR可以做到吗?

基本上我在任何地方都没有看到任何文件处理或编写基于hadoop的示例。

此时,我不想使用HBase或其他数据库工具。

最佳答案

您无法替换数据,因为HDFS文件仅附加,并且无法编辑。
我认为实现目标的最简单方法是将Hive中的数据注册为外部表,并在HQL中编写格式。
Hive是一个位于hadoop旁边的系统,可将您的查询转换为MR Jobs。
与使用HBASE一样,其使用也不是认真的基础架构决策

关于hadoop - 用hadoop MR替换输入文件中的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10293530/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com