- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我使用 Spark 1.2.1(在 local
模式下)从文件中提取和处理日志信息。
文件的大小可能超过 100Mb。该文件包含一个很长的单行,所以我使用正则表达式将该文件拆分为日志数据行。
MyApp.java
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> txtFileRdd = sc.textFile(filename);
JavaRDD<MyLog> logRDD = txtFileRdd.flatMap(LogParser::parseFromLogLine).cache();
LogParser.java
public static Iterable<MyLog> parseFromLogLine(String logline) {
List<MyLog> logs = new LinkedList<MyLog>();
Matcher m = PATTERN.matcher(logline);
while (m.find()) {
logs.add(new MyLog(m.group(0)));
}
System.out.println("Logs detected " + logs.size());
return logs;
}
已处理文件的实际大小约为 100 Mb,实际上包含 323863
日志项。
当我使用 Spark 从文件中提取日志项时,我得到了 455651
[logRDD.count()
] 日志项,这是不正确的。
我认为这是由于文件分区引起的,检查输出我看到以下内容:
Logs detected 18694
Logs detected 113104
Logs detected 323863
总和是455651
!
所以我看到我的分区彼此合并并保留重复项,我想防止这种行为。
解决方法是使用 repartition(1)
,如下所示:
txtFileRdd.repartition(1).flatMap(LogParser::parseFromLogLine).cache();
这确实给了我想要的结果 323863
,但我怀疑它对性能有好处。
如何在性能方面更好地进行处理?
最佳答案
分区默认是基于行的。看起来,当只有一条很长的线时,这会以一种有趣的方式失败。您可以考虑为此提交一个错误(也许已经有一个)。
拆分由 Hadoop 文件 API 执行,特别是 TextInputFormat
类。一种选择是指定您自己的 InputFormat
(可能包括您的整个解析器)并使用 sc.hadoopFile
。
另一种选择是通过 textinputformat.record.delimiter
设置不同的分隔符:
// Use space instead of newline as the delimiter.
sc.hadoopConfiguration.set("textinputformat.record.delimiter", " ")
关于java - 为什么用一个很长的单行作为输入的处理文件会给出不同数量的记录?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29689175/
这个问题在这里已经有了答案: Isn't an Int64 equal to a long in C#? (2 个答案) 关闭 9 年前。 它不应该是一个整数类型吗? 这样,一些使用 int 的函数
当我遇到一些我想知道的事情时,我正忙着解析一个二进制文件。 Stream.Position属性的类型为Int64或long。为什么是这样?因为流中的位置不能为负,所以使用 UInt64 不是更有意义吗
所以第一部分是我从用户那里获得输入,在本例中,输入是“1”作为从另一个函数接收的字符值。 printf ("\nPlease enter 1, 2, 3 or q: "); option =
我正在尝试使用以下代码从 REST 服务返回 JSON: $categories = $categoriesController->listAll(); if($categories){ hea
我阅读了文档,它说 long 是 %li,但打印输出返回为 -2147024891。是什么赋予了? 最佳答案 您甚至没有提供要打印的号码,但我猜您已经无意中发现了签名打印和未签名打印之间的区别。 使用
我正在创建自定义购物车,我正在构建一个查询,该查询从检索我刚刚保存到购物车表中的 session_id 开始。我知道这个值被保存了,我在 mysql 命令行运行这个查询,它返回我需要的但我没有将值放入
我有一个包含 textView 的 scrollView。如果文本很长并且不适合屏幕,我想增加 textView 高度(我想我可以通过添加 NSLayoutConstraint outlet 并修改它
我有一个基本的数据库处理程序类,其中有一个使用 PDO::FETCH_ASSOC 参数返回结果集的公共(public)方法: public function resultSet() { $th
在后台线程中,我调用 PublishSubject.onNext(); 并在主线程中通过 subscribe(PublishSubject.filter(message -> message.getI
我想知道为什么 Amazon Web Services 控制台登录页面有这么长的 url?为什么不只发布数据而不显示其中包含大量数据的冗长 url。以这种方式实现有什么充分的理由吗? 最佳答案 我认为
这个问题在这里已经有了答案: Can I mix MySQL APIs in PHP? (4 个答案) 关闭 6 年前。 希望我犯了一个快速而明显的错误,我浏览了 previous question
我得到了答案:如果我禁用了cookie,那么使用URL重定向我可以传递JSESSIONID,但我的URL已经很长,因为我使用它有约束的GET方法。那怎么办我应该使用我的 session 吗?我希望我的
目前,当我使用 DOMDocument 对象并调用 saveHTML() 时,它会自动添加一些我不需要的 html 标签。我尝试了此处建议的解决方案 ( https://stackoverflow.c
我是一名优秀的程序员,十分优秀!