optimization - 通用 Lisp : Optimizing file parsing for minimum reads and memory allocations-6ren

optimization - 通用 Lisp : Optimizing file parsing for minimum reads and memory allocations

转载作者：行者123 更新时间：2023-12-03 17:23:19

25

4

我可以使用一些帮助来优化一些 Common Lisp 代码。我正在尝试从日志文件中查询数据。从超过 14.5 万行中拉出前 50 行需要一秒钟的时间。推断出来，仅从日志文件中读取数据就需要将近 5 分钟。此外，当整个文件只有 14MB 时，我当前实现的前 50 行分配了约 50MB。我想要去的地方是对数据执行 1 次读取，以使用最少的内存分配来解析它。

我知道我看到的性能下降是由于我的代码。我很难思考的是如何重构我的代码以最大限度地减少我所看到的问题。我尝试使用 WITH-INPUT-FROM-STRING 将字符串作为流访问，但性能没有明显变化。

这是一个 IIS 日志，因此它将具有一致的结构。前 2 个字段是日期和时间，我想将其解析为一个数字，以便在需要时限制数据范围。之后，大多数字段的大小将是可变的，但所有字段都用空格分隔。

使用我的代码:使用 8 个可用 CPU 内核运行需要 1,138,000 微秒(1.138000 秒)。
在此期间，用户模式花费了 1,138,807 微秒(1.138807 秒)
在系统模式下花费了 0 微秒(0.000000 秒)
GC 花费了 19,004 微秒(0.019004 秒)。
分配了 49,249,040 字节的内存。

没有我的代码:使用 8 个可用 CPU 内核运行需要 64,000 微秒(0.064000 秒)。
在此期间，用户模式花费了 62,401 微秒(0.062401 秒)
在系统模式下花费了 0 微秒(0.000000 秒)
分配了 834,512 字节的内存。

(defun read-date-time (hit)
  (let ((date-time (chronicity:parse (subseq hit 0 20))))
    (encode-universal-time (chronicity:sec-of date-time)
               (chronicity:minute-of date-time)
               (chronicity:hour-of date-time)
               (chronicity:day-of date-time)
               (chronicity:month-of date-time)
               (chronicity:year-of date-time))))

(defun parse-hit (hit)
  (unless (eq hit :eof)
    (cons (read-date-time hit)
          (split-sequence:split-sequence #\Space (subseq hit 20)))))


(time (gzip-stream:with-open-gzip-file (ins "C:\\temp\\test.log.gz") 
  (read-line ins nil :eof)
  (loop for i upto 50 
     do (parse-hit (read-line ins nil :eof)))))

我的第一次尝试是一种非常幼稚的方法，我认识到我的代码现在可以使用一些改进，所以我要求一些方向。如果教程更适合回答这个问题，请发布链接。我喜欢

最佳答案

问题是 Chronicity 包，它在内部使用了 Local Time 包。

这个:

   (encode-universal-time (chronicity:sec-of date-time)
           (chronicity:minute-of date-time)
           (chronicity:hour-of date-time)
           (chronicity:day-of date-time)
           (chronicity:month-of date-time)
           (chronicity:year-of date-time))))

正在粉碎你。
chronicity:month-of电话 local-time:timestamp-month .如果你看一下它的代码:

 (nth-value 1
         (%timestamp-decode-date
          (nth-value 1 (%adjust-to-timezone timestamp timezone))))

所以，这是解码基本日期(似乎是一个整数)，两次，(一次是时区，一次是月份。

所以你解码同一个日期，做同样的工作，每个日期 6 次。而这些例行公事正在掀起一场 Storm 。

您还调用了 subseq 两次。

所以，在我看来，在这种情况下你需要专注于日期解析逻辑，使用不那么通用的东西。您不必验证日期(假设日志是准确的)，并且您不需要转换为自纪元以来的天/秒/毫秒，您只需要单独的 MDY、HMS 数据。您正在使用当前包完成所有这些工作，一旦您创建了通用时间，它就变得多余了。

您也可能不关心时区。

无论如何，这是问题所在的开始。这还不是 I/O 问题。

关于optimization - 通用 Lisp : Optimizing file parsing for minimum reads and memory allocations，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19471170/

25

4

0

文章推荐： php - 使用 OO PHP 优化 SQL 请求

文章推荐： optimization - 使用 root 优化后，结果不是它们应该的样子

文章推荐： optimization - 具有局部变量的Clojure前提

parse-platform - Parse Image + Parse httpRequest 替换——从 Parse Cloud Code 迁移到 Parse Server on Node (Heroku/AWS/DO)
我发现在使用parse-node包时，不能再使用Parse.Cloud.httpRequest了。我也知道 Parse 的 Image 对象将不可用。到目前为止，我已经能够用原生的替换一些 Pars
parsing - 'parse' 的反义词是什么？
关闭。这个问题是opinion-based 。目前不接受答案。已关闭 9 年前。已锁定。这个问题及其答案是locked因为这个问题是题外话，但却具有历史意义。目前不接受新的答案或互动。我有一个函
parse-platform - Parse Server - 用于配置新 Parse 实例的架构 API
开源 Parse Server 是否包含用于配置新 Parse 实例的 Schema API？我试图消除手动创建应用程序的需要。这是通过 Parse.com 提供的架构 API http://blo
parse-platform - 如何从客户端正确创建 Parse.com Parse.Cloud.httpRequest？
我想从我的云代码发出一个 http 请求，该请求在我的客户端被调用。最佳答案一开始我发现这有点令人困惑，所以希望这会有所帮助。在您的云代码中main.js Parse.Cloud.define(
parsing - *** 异常 : Prelude. 读取 : no parse in Haskell - Parsing, 表达式和递归
这部分代码应该读入两个或更多数字(省略主 io 函数)，然后是一个“+”来给出总和。使用有理数是因为稍后我将进行乘法和其他此类操作。 data Expression = Number Rationa
parse-platform - Parse.Config 在 Parse Server 上不起作用？
我似乎找不到任何关于此的官方信息:Does Parse.Config work on Parse Server?它曾经在 Parse.com 上工作，但是当我尝试迁移到 Parse.Server 时，
passwords - Parse.com 在 Parse.Cloud.beforeSave(Parse.User
我正在尝试找到使用 Parse.com 添加密码要求的最佳程序。似乎最简单的方法是在保存用户数据之前使用云功能执行。我唯一的警告是，只有当密码与数据库中存储的密码不同或者用户不存在于数据库中时，我才想
android - Parse 中的初始化 (com.parse.Parse.Configuration) 无法应用于 MainActivity 错误？
我是 android 开发、应用程序开发和一般开发的初学者，我正在尝试为我的 android 应用程序设置后端数据库。我决定使用一个名为 back4app 的服务，以便获得更加用户友好的数据库体验，因
android - 编译com.parse :parsefacebookutils leads to com. parse.Parse Class not found异常
我目前正在尝试将 Facebook 登录功能添加到我的应用程序。根据Android文档，当我添加 compile 'com.parse:parsefacebookutils-v4-android:1
parsing - 如何使用 PARSE 从字符串中解析货币值
我正在尝试使用 Rebol 2/3 从字符串中解析货币值，货币值的格式为: 10,50 欧元或 10,50 欧元我在浏览了所有 PARSE 文档后想出了这段代码，我可以在 Red 中找到它，但在 R
parsing - DateTimeFormat.parse() 失败
代码: DateTimeFormat dateFormat = DateTimeFormat .getFormat("EEE MMM dd HH:mm:ss zzz y
parse-platform - Parse 上不再有导入按钮
我不再在 Parse 上看到用于导入 JSON 或 CSV 文件的导入按钮。他们是否将其移动到某个地方，或者不再可能导入这些文件类型？最佳答案官方原因是这样的: “[导入类按钮] 几天前被删除，因
parsing - JSON.parse() 是必要的吗？
我正在使用 PHP 从我的服务器检索一些数据。我想在 javascript 应用程序中使用这些数据，所以我正在做这样的事情: var polylines = ; $polylines 只是一个 PHP
parsing - BigInteger.Parse() 对十六进制数给出负数
我已经开始使用 .NET 4 System.Numerics.BigInteger Structure我遇到了一个问题。我正在尝试解析一个包含无符号(正数)的十六进制数字的字符串。我得到一个负数。
parsing - JSON.parse() 是必要的吗？
我正在使用 PHP 从我的服务器检索一些数据。我想在 javascript 应用程序中使用这些数据，所以我正在做这样的事情: var polylines = ; $polylines 只是一个 PHP
parsing - time.Parse 行为
在 Go 中，尝试将字符串转换为 time.Time 时，使用时间包的 Parse 方法不会返回预期结果。似乎问题出在时区。我想更改为 ISO 8601 结合 UTC 日期和时间。 package m
parsing - time.Parse 自定义布局
我正在尝试将此字符串模式 "4-JAN-12 9:30:14" 解析为 time.Time。尝试了 time.Parse("2-JAN-06 15:04:05", inputString) 和许多其
parse-platform - "Please refrain from creating a Parse project inside another Parse project."
从云代码和解析开始。使用this . 如何删除所有 Parse 项目以便开始创建新项目？我收到以下错误: “您想要创建一个新应用程序，还是将 Cloud Code 添加到现有应用程序中？输入“(n)e
parse-platform - parse.com cloudcode 查询，如何告诉 parse 只返回在表中找到的 PFObject 的某些列？
我在解析云代码时有这个功能: Parse.Cloud.define("testfunction", function(request, response) { var username = r
parse-platform - 一个 Parse.Object.saveAll 请求可以保存多少数据？以及一个 Parse.Object.saveAll 将使用多少请求
最近，我在 parse.com 上做了一些测试。我现在面临在后台作业中使用 Parse.Object.saveAll 的问题。从 parse.com 的文档来看，后台作业可以运行 15 分钟。我现在

首页

博学

6Ren·AI

商城

optimization - 通用 Lisp : Optimizing file parsing for minimum reads and memory allocations