gpt4 book ai didi

hadoop - 使用Hadoop从两个URI中提取信息

转载 作者:行者123 更新时间:2023-12-02 21:55:10 24 4
gpt4 key购买 nike

假设在HDFS中,我在matrixX处有一个巨型稀疏矩阵,在matrixY处有另一个,我想做一个巨型矩阵乘法并写入matrixY。我可以从Hadoop中的两个不同的URI中提取信息吗?我该怎么做呢?我看过的所有示例都有一个输入目录和一个输出目录。

最佳答案

您可以从以下多个来源阅读:

MultipleInputs.addInputPath(jobConf, MultipleInputs.addInputPath(jobConf, 
new Path(MatixX),
TextInputFormat.class,
ColumnReaderMapper.class);

MultipleInputs.addInputPath(jobConf,
new Path(MatirxY),
TextInputFormat.class,
RowReaderMapper.class);

假设您必须矩阵A和B:

a11 a12 a13

a21 a22 a23

a31 a32 a33

b11 b12 b13

b21 b22 b23

b31 b32 b33

A * B =求和(b的*列的行)

如何将矩阵A存储为行专业,将矩阵b存储为列专业。现在,您可以在下一个映射器的RowReader中将键设置为行号,在Columnreader中将键设置为列号,并将其发送到相同的reducer,后者将进行求和并写入输出。您可以进行许多其他优化,但这应该是第一个开始。

关于hadoop - 使用Hadoop从两个URI中提取信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15351434/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com