gpt4 book ai didi

java - Hadoop Mapper 类中的参数

转载 作者:可可西里 更新时间:2023-11-01 17:00:59 25 4
gpt4 key购买 nike

我正在开发一种情绪分析工具,该工具从 .txt 文件接收内容,并且需要在字典中检查该词是正面的还是负面的。我使用 FileInputFormat.addInputPath(args[0]) 来引用包含要分析的单词的 .txt 文件。我尝试用字典的内容创建一个 ArrayList(.txt 文件 64KB),并将它作为一个静态对象传递给 Mapper 类中使用的类 ReadDictionary。在 eclipse 上运行它是可以的,但是当我尝试在 Hadoop 上运行时,我遇到了一些错误。如何以高效的方式将字典(.txt 文件 64KB)的内容传递给映射类以在 Hadoop (HDFS) 上运行?

最佳答案

您可以使用 org.apache.hadoop.filecache.DistributedCache 来缓存字典文件。

DistributedCache 是 Map-Reduce 框架提供的一种设施,用于缓存应用程序所需的文件(文本、存档、jar 等)。

在该节点上执行作业的任何任务之前,框架会将必要的文件复制到从属节点上。它的效率源于这样一个事实,即每个作业只复制一次文件,以及缓存未归档在从属服务器上的文件的能力。

这是 tutorial .

关于java - Hadoop Mapper 类中的参数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24173005/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com