- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在制作一个使用正则表达式的日志解析应用程序,我看到了一些奇怪的行为,我希望有人可以帮助解释并提供克服的技巧。首先,这是代码:
import java.io.File
var regex1Count = 0
var regex2Count = 0
var noMatchCount = 0
val regex1 = Regex(".*error.*", RegexOption.IGNORE_CASE)
val regex2 = Regex("exception|crashed|death|fatal|killed| f | e ", RegexOption.IGNORE_CASE)
fun main(args: Array<String>) {
val file = File("C:\\Users\\pnogas\\Desktop\\mobicontrol.log")
val time = System.currentTimeMillis()
val result = file.useLines { sequence ->
sequence.mapNotNull { line ->
parseLine(line)
}.toList()
}
println("took ${(System.currentTimeMillis() - time) / 1000.0} seconds")
println("regex1Count = $regex1Count, regex2Count = $regex2Count, noMatchCount = $noMatchCount")
}
private fun parseLine(line: String) {
for (filter in listOf(regex2, regex1)) {
if (filter.containsMatchIn(line)) {
if (regex1 == filter) {
regex1Count++
} else if (regex2 == filter) {
regex2Count++
}
return
}
}
noMatchCount++
}
当我运行此代码时,它会输出:
took 4.198 seconds
regex1Count = 16, regex2Count = 101, noMatchCount = 11559
但是,如果我将一行更改为 listOf(regex1, regex2) 而不是 listOf(regex2, regex1):
took 35.049 seconds
regex1Count = 18, regex2Count = 99, noMatchCount = 11559
我知道通配符正则表达式的运行成本会更高,但数字表明更改顺序只会使其运行次数增加两倍,与处理的总行数相比,这似乎可以忽略不计。如果我使列表仅包含 regex1,我将获得相同的性能。
最佳答案
这是一个复杂的问题,对于冗长(遗憾的是不完整)的答案,请提前道歉。
您的测试代码存在误解。您列表中的第一个正则表达式将在 上进行评估全部 行,因此在您的示例中为 11676 次。您的 regex1Count 变量仅返回 的次数正 match 已由(昂贵的)搜索操作返回。因此,更改正则表达式的评估顺序会对性能产生巨大影响,因为第一个正则表达式将用作主要过滤器。
此外,正如@PiRocks 所说,可以简化正则表达式。更重要的是,由于其简单性(搜索单个单词),这里甚至不需要使用正则表达式。您可以执行文字搜索,它会快得多。
此外,作为多年的 JVM 用户,我必须纠正一个关于性能的常见误解:JVM 应用程序并不总是比本地应用程序慢。每种技术都在自己的领域中大放异彩,要获得最佳性能,通常需要为正确的任务选择正确的工具。例如,JVM 使用 JIT 对经常使用的代码进行积极的优化,垃圾收集器大大降低了变量分配的成本。
无论如何,在当前情况下,我们 不能将手工编写的代码性能与交付的应用程序进行比较,无论双方使用什么技术。为什么 ?因为我们不能确定比较等效的工作流程。在这里,也许记事本有:
regex1
regex2
.*error.*
相比,文字搜索快如闪电。正则表达式。正则表达式是一个非常强大的工具,但它们的复杂性可能难以管理。
Log example :
ex quam Suspendisse vel sed rhoncus aliquet. elit.
nibh amet, sed nibh eleifend diam amet ex eleifend.
Measure Regex on 12000 lines
Regex 1 for 10 words per line took 0.439 seconds
Regex 1 for 20 words per line took 0.843 seconds
Java pattern 1 for 10 words per line took 0.407 seconds
Java pattern 1 for 20 words per line took 1.347 seconds
Regex 2 for 50 words per line took 0.463 seconds
Literal search for 1000 words per line took 0.836 seconds
import kotlin.random.Random
import java.lang.StringBuilder
import java.lang.System
import java.util.regex.Pattern
fun main() {
println("Log example :")
generateLogs(nbLines = 2, wordPerLine = 10).forEach { println(it) }
println("\nMeasure Regex on 12000 lines\n")
val regex1 = Regex(".*error.*", RegexOption.IGNORE_CASE)
for (nbWords in listOf(10, 20)) {
roughMeasurement("Regex 1 for $nbWords words per line") {
val matched = generateLogs(wordPerLine = nbWords)
.count { regex1.containsMatchIn(it) }
}
}
val javaPattern = Pattern.compile(".*error.*", Pattern.CASE_INSENSITIVE)
for (nbWords in listOf(10, 20)) {
roughMeasurement("Java pattern 1 for $nbWords words per line") {
val matched = generateLogs(wordPerLine = nbWords)
.count { javaPattern.matcher(it).find() }
}
}
val regex2 = Regex("(exception)|(crashed)|(death)|(fatal)|(killed)| f | e ", RegexOption.IGNORE_CASE)
roughMeasurement("Regex 2 for 50 words per line") {
val matched = generateLogs()
.count { regex2.containsMatchIn(it) }
}
roughMeasurement("Literal search for 1000 words per line") {
val matched = generateLogs(wordPerLine = 1000)
.count { it.indexOf("error") >= 0 }
}
}
fun roughMeasurement(title: String, action: () -> Unit) {
val start = System.nanoTime()
action()
val end = System.nanoTime()
val timeSeconds = (end - start).toDouble() * 1e-9
println("$title took ${"%.3f".format(timeSeconds)} seconds")
}
/*
* LOG GENERATION UTILITIES
*/
fun generateLogs(nbLines : Int = 12000, wordPerLine : Int = 50) : Sequence<String> {
return (1..nbLines).asSequence()
.map { generateSentence(wordPerLine) }
}
fun generateSentence(nbWords : Int) : String {
require(nbWords > 2) { "Need more than two words per sentence" }
val builder = StringBuilder(nbWords * 3)
for (i in 0..nbWords-2) {
builder.append(wordPool.pick()).append(' ')
}
builder.append(wordPool.pick())
return builder.toString()
}
fun List<String>.pick() = this[Random.nextInt(0, size)]
/**
* Authorized words in log generation.
* To test for worst-case scenario, we've omitted searched keywords:
* error exception crashed death fatal killed
*/
val wordPool = """
Lorem ipsum dolor sit amet, consectetur adipiscing elit.
Suspendisse eu ex eu ligula egestas posuere ac et velit.
Fusce sed nisl diam. Proin eleifend nibh vel felis fermentum,
a luctus diam eleifend. Pellentesque feugiat magna sit amet
arcu eleifend, vel lacinia justo aliquet. In quam magna,
rhoncus a lacinia vel.
""".split(Regex("\\s+"))
关于regex - 正则表达式的 Kotlin 性能问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63947251/
我正在查看Kotlin Github page我注意到 Kotlin 语言本身大部分是用 Kotlin 编写的:我只是想知道,一种语言怎么可能大部分都是用它自己的语言编写的?在您可以使用正在创建的语言
我有以下非常简单的 kotlin 代码来演示中缀函数 com.lopushen.demo.presentation 包 fun main(args: Array) { print("Hello
我在 Java 中有 2 个模型类,其中一个扩展了另一个 @UseStag public class GenericMessages extends NavigationLocalizationMap
Kotlin 代码 runBlocking { flow { for (i in 0..4) { println("Emit $i")
这三个 Kotlin 插件和它们的实际作用有什么区别? plugins { id 'kotlin-android' id 'org.jetbrains.kotlin.android'
我正在为某些现有库添加 Kotlin 原生 linuxX64 目标支持。库已成功编译,但在运行测试用例时,出现以下运行时错误: kotlin.native.concurrent.InvalidMuta
关闭。这个问题需要details or clarity .它目前不接受答案。 想改进这个问题吗? 通过 editing this post 添加细节并澄清问题. 关闭 2 年前。 Improve t
我创建了一个类并向其添加了一个与成员函数具有相同签名的扩展,并执行了这个方法,它总是执行成员方法。 class Worker { fun work() = "...working" } fun
我知道传递给函数的参数将被视为“val”,即使变量被初始化为“var”。但这对我来说一直是个问题。在下面的示例代码中,我想通过使用函数“changeNum”修改变量“num”的值。但当然,Kotlin
现在,我正在尝试用 Kotlin 重写我的 Java 应用程序。然后,我遇到了日志语句,比如 log.info("do the print thing for {}", arg); 所以我有两种方法可
有点出名article关于许多语言的异步编程模型的状态,指出它们存在“颜色”问题,特别是将生态系统分为两个独立的世界:异步和非异步。以下是这种语言的属性: 每个函数都有一种颜色,红色或蓝色(例如asy
因为 KDoc 文档生成引擎是 abandoned in favor of Dokka , Kotlin 文档应该称为“KDoc 注释”,还是“Dokka 注释”? 最佳答案 如所述here , KD
我想在可空对象上传递函数引用。以 Android 为例,假设我想使用 Activity#onBackPressed来自作为该事件的子级的片段。 如果我想调用这个函数,我可以很容易地做到 activit
我有一个列表 (x, y)其中y只能是 0 或 1 这样 例如: [(3, 0), (3, 1), (5, 1)] [(5, 0), (3, 1), (5, 1)] [(1, 1), (3, 1),
从强类型语言的定义来看: A strongly-typed programming language is one in which each type of data (such as intege
这不能编译的事实是否意味着它们不是一流的类型? fun foo(s: String): Int = s.length // This won't compile. val bar = foo 有没有办
如果在 Java i++是一个表达式和 i++;是一个表达式语句,分号(;) 在 Kotlin 中是可选的,是 i++ Kotlin 中的表达式或表达式语句? 最佳答案 i++是一个表达式,因为它有一
代码(如下所示)是否正确?它取自 Kotlin-docs.pdf 的第 63 页,这也是 https://kotlinlang.org/docs/reference/generics.html 的最后
我正在尝试使用 Kotlin 为 Android 的一些全局 API 解析器(检查网络连接、调用 API 并通过来自源的单个调用返回格式化数据),并且在某些时候我不得不创建一个通用类型 object就
kotlinlang 中的任务: 使用月份变量重写此模式,使其与格式 13 JUN 1992(两位数字、一个空格、一个月份缩写、一个空格、四位数字)中的日期相匹配。 答案是:val month = "
我是一名优秀的程序员,十分优秀!