- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我编写了以下函数来解析大文本文件(大约 2 GB)逐行放入 Map 中,有效地计算每个单词的出现次数。我只对单词感兴趣(小写以避免条目重复),没有标点符号或空格。然而,在大文件上执行以下代码大约需要 3 分钟。我想知道为什么以及是否有办法加快速度。
import java.util.*;
public class Stream {
Map<String, Integer> map = new HashMap();
public void getLines() {
try (BufferedReader fileReader = new BufferedReader(new FileReader("resources/hugeFile"))) {
String line ;
while ((line = fileReader.readLine()) != null) {
String[] words = line.toLowerCase().replaceAll("[^a-z ]", "").split("\\s+");
for (int i = 0; i < words.length; i++) {
if (map.get(words[i]) == null) {
map.put(words[i], 1);
}
else {
int newValue = Integer.valueOf(String.valueOf(map.get(words[i])));
newValue++;
map.put(words[i], newValue);
}
}
}
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
最佳答案
首先,如果您认真对待优化,则必须衡量性能。因为很多看似“改进”的“改进”可能被证明要么什么也没有带来,甚至使性能变得更差。在许多情况下,编译器比人类更好地优化代码。所以你必须做基准测试,请看下面的问题:
我在下面发布了两个代码草图。这些实际上只是草图,只是为了提供一个粗略的想法。我既没有测试过它们,也没有进行过基准测试。
一个提示是您访问 map 的次数过多。您可以使用 map.get
检查它,然后使用 map.put
有条件地输入值。您可以使用 putIfAbsent
或 computeIfAbsent
代替。此外,增加现有值(value)的方式也可能会得到改善。在这种情况下,我将使用可变的 AtomicInteger 而不是不可变的 Integer。所以我建议如下:
Map<String, AtomicInteger> map = new HashMap<>();
Consumer<String> countWords = word -> map.computeIfAbsent(word, (w) -> new AtomicInteger(0)).incrementAndGet();
try (BufferedReader fileReader = new BufferedReader(new FileReader("resources/hugeFile"))) {
String line;
while ((line = fileReader.readLine()) != null) {
splitAndConsumeWords(line, countWords);
}
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
接下来,您使用了 line.toLowerCase().replaceAll("[^a-z ]", "").split("\\s+")
将字符串转换为小写,仅保留字母和空格并将字符串拆分为单词。如果没有基准测试,我不确定,但我怀疑这可能是代码中最耗时的操作。而且不用正则表达式重写也没什么大不了的。您所需要的只是迭代字符串的字符,将它们转换为小写,附加到当前单词或丢弃。我就是这样做的。
我会创建一个数组,将每个字符映射到其替换字符。相同字符表示 a-z
或空格,小写表示 A-Z
。所有其他字符将被映射到 0
这意味着它们应该被丢弃:
private static char[] ONLY_LETTERS_TO_LOWERCASE = new char[65535];
static {
ONLY_LETTERS_TO_LOWERCASE[' '] = ' ';
for (char c = 'a'; c <= 'z'; c++) {
ONLY_LETTERS_TO_LOWERCASE[c] = c;
}
for (char c = 'A'; c <= 'Z'; c++) {
ONLY_LETTERS_TO_LOWERCASE[c] = Character.toLowerCase(c);
}
}
然后您只需查找每个字符的替换并构建单词即可:
public static void splitAndConsumeWords(String line, Consumer<String> wordsConsumer) {
char[] characters = line.toCharArray();
StringBuilder sb = new StringBuilder(16);
for (int index = 0; index < characters.length; index++) {
char ch = characters[index];
char replacementCh = ONLY_LETTERS_TO_LOWERCASE[ch];
// If we encounter a space
if (replacementCh == ' ') {
// And there is a word in string builder
if (sb.length() > 0) {
// Send this word to the consumer
wordsConsumer.accept(sb.toString());
// Reset the string builder
sb.setLength(0);
}
} else if (replacementCh != 0) {
sb.append(replacementCh);
}
}
// Send the last word to the consumer
if (sb.length() > 0) {
wordsConsumer.accept(sb.toString());
}
}
ONLY_LETTERS_TO_LOWERCASE
映射表的替代方案是 if
语句,如下所示:
if (ch >= 'a' && ch <= 'z' || ch == ' ') {
replacementCh = ch;
} else if (ch >= 'A' && ch <= 'Z') {
replacementCh = Character.toLowerCase(ch);
}
else {
replacementCh = 0;
}
我不确定什么会更好,我认为数组中的查找一定更快,但我不确定。这就是您最终需要基准测试的原因。
关于java - 如何加快将文件解析为 HashMap 的速度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49677564/
我想使用 ffmpeg 框架更改视频速度。我为此使用了这个命令: ffmpeg -y -i /storage/extSdCard/Video/1.avi -filter_complex [0:v]fp
我有以下数据数组,有 200 万个条目: [20965 1239 296 231 -1 -1 20976 1239 299 314 147 337 255
我正在使用 Oracle 数据库,并且想获取一个包含 3000 万条记录的表。 library(RODBC) ch <- odbcConnect("test", uid="test_user",
我在 android 上使用 FFmpeg 来: 1- 合并 3 个视频 2-添加音频 3-添加标志 4-修剪 3 个视频之一 5-改变输出的fps 我已经实现了正确的代码,但花了 30 分钟。对于(
我使用 GLPKMathProgInterface 和 JuMP 编写了一个程序来解决 Julia 中的线性程序。 Julia 代码由 python 程序调用,该程序通过多个命令行调用运行多个 Jui
我们使用 POV-Ray 每次运行生成大约 80 张图像,我们将这些图像拼接在一起形成两个移动的 GIF 文件(一个场景的两个 360 度 View )。我们正在寻找尽可能加快此镜像创建的方法(在 h
就目前情况而言,这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放,visit
我将数据从一个数据库插入到另一个数据库,所以我有 2 个连接(Conn1 和 Conn2)。下面是代码(使用pypyodbc)。 import pypyodbc Conn1_Query = "SE
在我的应用程序中,我显示 EKEvents 列表,我想在 UITableView 中显示一个月的所有事件,每个部分包含各自的日期。嗯,这可行,我得到了我需要的所有数据,但获取速度非常慢。 问题在于事件
我有一个移动速度非常慢的传送带。我不知道什么JS脚本控制速度,我需要它来加速。无法从主题制作者那里获得任何帮助。任何建议都会非常有帮助。谢谢 页面: http://krankgolf2017.wpen
有没有办法加快这段代码的速度?我需要它来删除相同的内容并将其写入单元格,以强制其他 VBA 代码运行另一列上的代码。这就是它的作用,只是 super 慢。有时此表上有 2000 个条目/行。每个单元大
我正在开发一个相当大的程序,它再次从一个相当大的 Excel 电子表格中获取数据。由于一些奇怪的原因,加载这个大的 Excel 文件需要很长时间,我希望能以某种方式加快速度。我做了自己的研究并尝试了
我有下面的代码,将所有按钮(有 10 个)着色为灰色,以清除任何先前着色的按钮,然后将所选按钮着色为蓝色。基本上充当当前选择哪个按钮的指示器。我注意到代码现在需要一些时间才能通过这种修饰添加来运行,我
我有一个 LINQ 查询,它正在搜索包含大约 250,000 条记录的 SQL 表,并且仅搜索 2 个字段。这两个字段都已建立索引,但我发现它的运行速度仍然相当慢。 下面是代码,有人可以提出任何建议来
对于相对较大的 Pandas DataFrame(几十万行),我想创建一个应用函数结果的系列。问题是该功能不是很快,我希望它能以某种方式加快速度。 df = pd.DataFrame({ 'valu
这个问题在这里已经有了答案: Faster weighted sampling without replacement (3 个答案) 关闭 9 年前。 如何在 R 中加快概率加权采样。 # Let
在运行 PhantomJS 提供的 rasterize.js 示例时,我发现我必须等待 20 秒或更长时间才能生成网页图像。 有没有可能在不消耗大量资源的情况下加快速度的方法?我基本上希望快速生成从加
我正在开发一个相当大的程序,它再次从一个相当大的 Excel 电子表格中获取数据。由于一些奇怪的原因,加载这个大的 Excel 文件需要很长时间,我希望能以某种方式加快速度。我做了自己的研究并尝试了
我有下面的代码,将所有按钮(有 10 个)着色为灰色,以清除任何先前着色的按钮,然后将所选按钮着色为蓝色。基本上充当当前选择哪个按钮的指示器。我注意到代码现在需要一些时间才能通过这种修饰添加来运行,我
我有一个 Excel 工作簿,用户通过单击按钮导入文本文件。我的代码完全按照我的需要工作,但是在填写 H 列“阅读日期”时速度非常慢。将文本文件导入 Excel 工作表后,我的 Excel 工作簿如下
我是一名优秀的程序员,十分优秀!