gpt4 book ai didi

java - Mapreduce:词典顺序。文本和整数类型

转载 作者:可可西里 更新时间:2023-11-01 16:45:11 27 4
gpt4 key购买 nike

我有一个 map reduce 作业,可以对在这里找到的数据进行排序: http://archive.ics.uci.edu/ml/datasets/Bank+Marketing

我目前有一项工作是对文件进行排序并输出以下格式的键值对:教育类型、银行存款余额、工作、婚姻状况、贷款审批。

这近乎完美。如果不止一个人相同,我会得到一份经过编辑的列表,旁边有一个数字。

我想做的是在不运行多个作业或更改输出顺序的情况下编辑列表的排序方式。

输出示例如下:

unknown, 970, unemployed, married, yes  1
unknown, 9716, housemaid, married, no 1
unknown, 973, services, divorced, no 1
unknown, 973, services, divorced, yes 2
unknown, 974, services, single, no 1
unknown, 975, entrepreneur, married, no 1
unknown, 975, technician, divorced, no 1
unknown, 976, bluecollar, married, no 1
unknown, 98, admin, married, no 1

虽然输出确实按教育类型排序(在本例中未知),但我想更改输出中的顺序,使它们按余额降序排列,而不是按字典顺序排序。例如:

unknown, 98, admin, married, no 1
unknown, 970, unemployed, married, yes 1
unknown, 973, services, divorced, no 1
unknown, 973, services, divorced, yes 2
unknown, 974, services, single, no 1
unknown, 975, entrepreneur, married, no 1
unknown, 975, technician, divorced, no 1
unknown, 976, bluecollar, married, no 1
unknown, 9716, housemaid, married, no 1

下面的问题说我需要将键类型更改为类似 intwritable 的类型,但我不能这样做,因为我已经先按文本值排序。 How to override the default sorting of Hadoop

TLDR:我是否必须运行多个作业才能按键内的两个独立变量类型进行排序?

最佳答案

找出正确的方法来做到这一点。对于所有寻找的人,需要进行次要排序。

我在这里使用了文档:

https://www.safaribooksonline.com/library/view/data-algorithms/9781491906170/ch01.html

理解实现。

关于java - Mapreduce:词典顺序。文本和整数类型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37448871/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com