python - 需要一些关于如何编写我的日志解析器的想法-6ren

python - 需要一些关于如何编写我的日志解析器的想法

转载作者：太空宇宙更新时间：2023-11-04 01:42:39

24

4

我有一个托管多个虚拟主机的 VPS。每个主机都有自己的 access.log 和 error.log。目前，没有日志轮换设置，不过，这可能会改变。

基本上，我想解析这些日志以监控带宽并收集统计数据。

我的想法是编写一个解析器并将信息保存到一个小型 sqlite 数据库中。该脚本将每 5 分钟运行一次，并使用 Python 的 seek 和 tell 方法从上次解析的位置打开日志文件。这可以防止我每 5 分钟解析一个 10GB 的日志文件，而我所需要的只是位于文件末尾的新信息(没有日志轮换，还记得吗？)。

经过一番思考，我意识到我所做的只是从日志文件中获取信息并将它们放入数据库中...将数据从一个位置移动到另一个位置:/

那么我还能怎么做呢？我希望能够做类似的事情:

python logparse.py --show=bandwidth --between-dates=25,05|30,05 --vhost=test.com

这将打开 test.com 的日志文件并显示指定 5 天的带宽使用情况。

现在，我的问题是，当我只需要 5 天的数据时，如何防止自己解析 10GB 的数据？

如果我使用每 5 分钟将日志数据保存到数据库中的想法，我可以只保存日期的 unix 时间戳并提取它们之间的数据。简单的。但我更愿意直接解析日志文件。

最佳答案

除非您每天创建不同的日志文件，否则您只能根据请求解析整个日志。

我仍然会使用数据库来保存日志数据，但使用您想要的时间单位分辨率(例如，以天/小时为间隔保存带宽)。使用数据库的另一个优势是您可以非常轻松且快速地进行范围查询，就像您在示例中给出的那样。当您有不再需要的旧数据时，您可以将其从数据库中删除以节省空间。

此外，您不需要每次都解析整个文件。您可以在 pyinotify 的帮助下监控对文件的写入每当写入一行时，您都可以更新数据库中的计数器。或者，您可以在每次读取文件时存储文件中的最后一个位置，并在下一次从该位置读取。文件被截断时要小心。

总结一下:

按天分辨率将您的数据保存在数据库中(例如，每天的带宽)
使用 pyinotify 监控对日志文件的写入，这样您就不会一遍又一遍地读取整个文件

如果您不想编写自己的解决方案，请查看 Webalizer , AWStats或从 this list 中选择一个工具.

编辑:

WebLog Expert看起来也很有前途。看看其中一个 reports .

关于python - 需要一些关于如何编写我的日志解析器的想法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3328688/

24

4

0

文章推荐： python - 控制对系统部分的访问，以及对某些信息的访问

文章推荐： node.js - Node.js 中的客户端-服务器通信

文章推荐： c++ - 了解 FPS 及其使用的方法

javascript - 集中统一调用函数的解决方案/想法
所以这个有点难以解释，但我会尝试一下: 我有一个带有 .boxes 类的 div。它是一些循环元素的包装。循环元素具有类.box。在这个元素中，还有两个元素。一种是 .box-header 类的 he
css - 页眉背景图像未按我的预期调整大小 - 想法？
我有一个网站，我试图在调整浏览器窗口大小时使其表现得体。例如，我希望在有人缩小浏览器窗口时调整横幅图像的大小。网址是http://www.pfp-consortium.org 顶部的横幅在 CSS 中
jquery - 想法 - 最好让所有元素都在表格中或一秒钟后将它们添加到那里？
我想知道情况，是将所有可能的元素都放在表单中更好，还是在用户需要时立即将元素添加到表单中更好。我将尝试对其进行更多解释 - 我的表单具有 4 个输入和一个文本区域。然后我提供了可选值(大约 15 -
android - 锁定安卓应用程序。想法？
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
用于存储未读帖子和通知的 PHP 想法
所以我一直在研究我正在构建的一个论坛，并且一直专注于它的一个方面，即如何在不在数据库中存储大量数据的情况下跟踪未读的帖子和通知。在查看了一些解决方案之后，我相信我想出了一个可能适合我需要的解决方案，但
java - 使支持应用程序更容易的指南/想法
编写一个高质量的软件应该是第一步。现在这是一个移动的目标。(我们有一些类似于 https://stackoverflow.com/questions/3716203/automatic-code-qu
c++ - 二维点集的压缩 - 想法？
我有一组存储在数组中的二维点。我需要尽可能多地压缩它。最好是快速，但不要破坏交易，压缩率是目标。规则是: 一个点=一个32位的结构，存储为(x,y)，每个坐标2个字节坐标 = 8 位整数部分和 8
android - 数据库在我的应用程序下载后似乎消失了。想法？
我的一个应用程序从服务器下载数据库。当我将应用程序安装到我的手机上时，它会正确下载文件并加载信息，没有抛出任何异常或任何东西。但是，当我将 apk 上传到 Android Market Place
javascript - 客户网站上的恶意软件 - 想法？
我们最近接到一位客户的电话，提示他们网站的页面底部有一些“看起来很奇怪的代码”。我们查看了源代码，发现 templates/master 中附加了大约 800 字节的恶意 javascript 代码。
system-restore - 创建系统还原点 - 想法？
以编程方式创建系统还原点是“禁忌”吗？我会在执行软件更新之前执行此操作。如果有更好的方法可以仅使用我的软件文件和数据创建还原点，请告诉我。我想要一种方法，如果在更新期间一切都发生了故障(关闭/终止更
ruby-on-rails - 跟踪类实例及其关联的更改 - 想法？
我有一个有很多相关模型的类问题。在我的应用程序的一个页面上，我列出了所有当前问题的摘要，以及来自相关记录的各种信息。最终，这是一个值的散列，然后我将其打印到一个 csv 样式的行中(从这里我将其称为“
objective-c - NSClassFromString 想法
我目前正在尝试从 NSClassFromString(NSString *) 方法创建对象。我希望能够实现的是以下... NSClassFromString(stringType) *pageCon
scala - 是什么使变量可见(intellij 想法)
使用 Intellij 想法，我如何找出使变量可见的原因？困难时的示例: 假设你看 class A ，你会看到一个变量 something .如果你跳转到源代码，你会看到它是在 trait X 中定
gradle - 想法-如何在.gradle文件的下一行放置括号？
在IntelliJ IDEA的代码样式设置中，没有.gradle文件的任何子类别(例如build.gradle)，在“其他文件类型”下，没有任何选项可以修改花括号位置。我没有找到为.gradle文件设
docker - 为Saleor运行docker-compose似乎陷入了循环，想法？
我正在尝试按照here指令运行docker-compose，但它似乎陷入了循环。在安装Docker之前，我能够调出示例站点并进行一些外观上的更改，但是尝试使用docker-compose生成缩略图23
debugging - Intellij 想法在不停止完整调试的情况下停止执行函数
我正在使用 IntelliJ IDEA 12.1.4 来调试 Grails 应用程序。我开始调试 session 大约需要 2 分钟。我想尽可能避免重新启动。我正在尝试调试一个 Controller
Jquery 包含 AJAX？想法？
随着 .NET 4.0 的出现，MS AJAX 是否仍占有一席之地，或者您认为 JQuery 是否会扩展以包含 AJAX 的全部功能，并使我们所知的 MS AJAX 变得多余？最佳答案请记住，AS
c# - C# 的快速入门示例应用程序不起作用。想法？
需要帮助运行此示例 Google+ API Quickstart w/C# 应用程序，请使用 VS2015 并按照此处的说明操作:https://developers.google.com/+/web
php - URL 正则表达式匹配器(想法)
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
Java "Stored procedure"想法
我有一个相当“疯狂”的想法，即在我的应用程序中拥有一个“存储过程”设施。基本上，我的应用程序以数据为中心，它可以通过某种形式的 Restful 界面访问数据存储。我希望拥有以多种方式操作数据(这是一

首页

博学

6Ren·AI

商城

python - 需要一些关于如何编写我的日志解析器的想法