- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在使用 Hadoop 的 map reduce 函数编写倒排索引创建器。我的输入文件中的某些行已将字符\n 作为实际字符写入其中(不是 ASCII 10,而是两个实际字符“\”和“n”)。出于某种我不明白的原因,这似乎导致 map 函数将我的行分成两行。
这是我的一些文件中的一些示例行。
32155: Wyldwood Radio: On the Move WILL begin on Friday May 1st, as originally planned!\n\nWe had some complications with... http://t.co/g8STpuHn5Q
5: RT @immoumita: #SaveJalSatyagrahi\nJal Satyagraha 'holding on to the truth by water' https://t.co/x3XgRvCE5H via @4nks
15161: RT @immoumita: #SaveJalSatyagrahi\nJal Satyagraha 'holding on to the truth by water' https://t.co/x3XgRvCE5H via @4nks
这是输出:
co :78516: tweets0001:30679;2, ... , tweets0001:We had some complications with... http;1, ...
x3XgRvCE5H :2: tweets0000:Jal Satyagraha 'holding on to the truth by water' https;2
下面是我的 map reduce:
map
public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, Text> {
private final static Text word = new Text();
private final static Text location = new Text();
public void map(LongWritable key, Text value, OutputCollector<Text, Text> output, Reporter reporter) throws IOException {
String line = value.toString();
int colon_index = line.indexOf(":");
if(colon_index > 0)
{
String tweet_num = line.substring(0,colon_index);
line = line.substring(colon_index + 1);
StringTokenizer tokenizer = new StringTokenizer(line," !@$%^&*()-+=\"\\:;/?><.,{}[]|`~");
FileSplit fileSplit = (FileSplit)reporter.getInputSplit();
String filename = fileSplit.getPath().getName();
location.set(filename + ":" + tweet_num);
while (tokenizer.hasMoreTokens()) {
word.set(tokenizer.nextToken());
output.collect(word, location);
}
}
}
减少
public static class Reduce extends MapReduceBase implements Reducer<Text, Text, Text, Text> {
public void reduce(Text key, Iterator<Text> values, OutputCollector<Text, Text> output, Reporter reporter) throws IOException {
boolean first = true;
int count = 0;
StringBuilder locations = new StringBuilder();
HashMap<String,Integer> frequencies = new HashMap<String, Integer>();
while (values.hasNext()) {
String location = values.next().toString();
if(frequencies.containsKey(location)){
int frequency = frequencies.get(location).intValue() + 1;
frequencies.put(location,new Integer(frequency));
}
else{
frequencies.put(location,new Integer(1));
}
count++;
}
for(String location : frequencies.keySet()){
int frequency = frequencies.get(location).intValue();
if(!first)
locations.append(", ");
locations.append(location);
locations.append(";"+frequency);
first = false;
}
StringBuilder finalString = new StringBuilder();
finalString.append(":"+String.valueOf(count)+": ");
finalString.append(locations.toString());
output.collect(key, new Text(finalString.toString()));
}
}
一般的数据流是将每一行映射到一个 {Word,filename:line_number} 对,然后通过计算它出现的频率来减少这些对。输出应该是:
Word-->:occurences:filename1:line_number:occurences_on_this_line, filename2....
map reduce 部分工作得很好,你甚至可以从我的示例中看到第 5 行和第 15161 行的推文都包含字符串 x3XgRvCE5H
,而且,因为我的 Mapper 在之前查找冒号附加一个行号并且这两条推文包含相同的文本,它们都映射到相同的索引位置,给出“频率”值 2。
所以,我的问题是:如何让 Hadoop 的输入格式不将字符“\n”读取为换行符?毕竟,它们不是 ASCII 10,即实际的换行符、换行符,而是两个单独的字符。
最佳答案
您必须扩展 FileInputFormat
并编写一个新类来覆盖该行为。例如:
public class ClientTrafficInputFormat extends FileInputFormat {
@Override
public RecordReader createRecordReader(InputSplit split, TaskAttemptContext context)
throws IOException, InterruptedException {
return new ClientTrafficRecordReader();
}
}
RecordReader 也应该被覆盖
public class ClientTrafficRecordReader extends
RecordReader<ClientTrafficKeyWritable, ClientTrafficValueWritable> {
...
private LineRecordReader reader = new LineRecordReader(); // create your own RecordReader this is where you have to mention not to use '\n' but it should be read as "\"and "n"
@Override
public void initialize(InputSplit is, TaskAttemptContext tac) throws IOException,
InterruptedException {
reader.initialize(is, tac);
}
...
@Override
public boolean nextKeyValue() throws IOException, InterruptedException {
//customize your input
}
关于java - 如何让 hadoop 忽略\n 输入文件中的字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30498165/
我正在尝试设置我的 git 配置,以便我可以使用工作环境和个人环境。 这是我的 ~.gitconfig 文件的内容(碰巧 work 和 private 在 github 上): [url "git@
我有以下情况。我在 Sheet1 上有一个项目列表,我想将项目复制到 Sheet2 并排除特定项目。 假设我在 Sheet1 上有以下项目列表: 我想将“梨”单元格留在 Sheet2 上。 它应该完全
我试图让 gcc 以不同的语言提供错误消息。但它仍然给我英文的错误信息。 我的语言环境输出 varun@varun-desktop:$ 语言环境 LANG=en_IN LC_CTYPE="es_EC.
我在 Linux x86 上使用 gcc。 我的程序将指向 C 函数的指针导出到 LLVM JIT 函数。调用约定是 cdecl。它在 Windows 上的 MingW 上运行良好。但是奇怪的事情发生
windows 上 php 的奇怪问题...我的应用程序加载了一个“核心”文件,该文件加载了一个设置文件、注册自动加载、进行初始化等。在核心文件的顶部我有 include_once("config.p
在工具|选项|调试器选项 |语言异常可以忽略特定的异常类型。是否可以为每个项目定义这个?例如在调试构建配置中(Delphi 2009 和/或 2010)? /编辑:Reported in QC 最佳答
我在一个文本框旁边有 2 个按钮,在这 2 个按钮后面还有另一个文本框。第一个文本框的 tabindex 为 1000,第一个按钮为 1001,第二个按钮为 1002。第二个文本框的 tabindex
我是 python 新手,正在尝试类型提示,但它们似乎只在某些情况下起作用。它们似乎在属性返回类型上按预期工作,但是当我尝试将整数分配给字符串值(即 self._my_string = 4)时,我没有
问题陈述 我有一些国家和这些国家的州的依赖组合框。我使用 VBA 在第一个组合框中填充唯一值,然后在第二个组合框中动态填充唯一值。该代码似乎忽略了初始传递中的条件。 例如,该代码适用于第一个国家/地区
我对 Javascript 有点陌生。我试图做到这一点,以便单击一个页面上的图像会将您带到一个新页面,并在该新页面上显示特定的 div,因此我使用 sessionStorage 来记住并使用 bool
我不确定我是否正确地处理了这个问题。 我有一个 ASP.NET MVC Web 应用程序。有 4 个主要“页面”通过单击菜单选项,可以选择一个页面,并将该页面选项存储在本地存储中。 现在,如果我刷新页
我的页面工作正常,并按预期显示日期和时间,直到我不得不添加 new Date() 以避免 momentjs deprecation warning 。现在我的约会比应有的时间晚了 5 个小时。 我该如
我需要合并一个 fork 项目。不幸的是,CVS $Id 行不同,因此我尝试的合并工具报告所有文件都不同(其中 95% 只有这一行不同) 是否有一个合并工具可以配置为忽略基于模式的行比较结果? [编辑
我是 python 新手,正在尝试类型提示,但它们似乎只在某些情况下起作用。它们似乎在属性返回类型上按预期工作,但是当我尝试将整数分配给字符串值(即 self._my_string = 4)时,我没有
我正在尝试根据 How do a send an HTTPS request through a proxy in Java? 使用代理访问 https 网页 但是我遇到了一个奇怪的问题:HttpsU
我有一个简单的 CMakeLists.txt 文件: cmake_minimum_required(VERSION 2.8.9) project (sample) add_library(Shared
这个问题在这里已经有了答案: typedef pointer const weirdness (6 个答案) 关闭 8 年前。 我有一个结构体 type_s。然后我将指向 struct type_s
我正在尝试制作一个使用 AES 256 加密的应用程序。不幸的是我无法让它工作。也许我没有完全理解密码逻辑。 所以它正在工作,但据我了解,哈希包含密码。但如果我更改密码,输出是相同的。因此,Crypt
我的文件包含一些行,例如 "This is a string." = "This is a string's content." " Another \" example \"" = " New ex
我尝试使用此查询来获取所选健身房的所有用户。 我的问题是查询忽略了这部分:ual.user_id = weekUsers.user_id 查询似乎获取了与我选择的日期匹配的所有用户 ID,而不检查该用
我是一名优秀的程序员,十分优秀!