gpt4 book ai didi

python - 编写基于 XML 的大型日志文件时性能不佳

转载 作者:太空宇宙 更新时间:2023-11-04 05:53:00 26 4
gpt4 key购买 nike

我是 Python 的新手,我已经为定义的应用程序列表编写了一个相当简单的脚本来记录性能统计信息。该脚本每隔一段时间(使用 psutil )对进程进行采样并返回各种统计信息,然后将其记录下来。为了便于以后对数据进行有趣的操作,我使用了 XML 日志格式。

下面是日志结构的简化版:

<?xml version="1.0" ?>
<data>
<periodic>
<sample name="2015-02-25_23-22-54">
<cpu app="safari">10.5</cpu>
<memory app="safari">1024</memory>
<disk app="safari">60</disk>
<network app="safari">720</network>
</sample>
</periodic>
</data>

我目前正在使用 cElementTree 来解析和创建日志文件。采样循环的每次迭代都会解析现有日志文件,将最新数据追加到末尾,然后将新文件写入磁盘。

我的日志编写器类的简化版本:

import xml.etree.cElementTree as etree
from xml.dom import minidom

logfile = 'path/to/logfile.xml'

class WriteXmlLog:
# Parse the logfile.
def __init__(self):
self.root = etree.parse(logfile).getroot()
self.periodic = list(self.root.iter('periodic'))[0]

def __write_out(self, log_file):
"""Write log contents to file."""
open(log_file, 'w').write(minidom.parseString(etree.tostring(self.root).replace('\n', '').replace('\t', '')).toprettyxml())

def __create_timestamp(self):
"""Returns a timestamp for naming a process sample iteration."""
return datetime.datetime.fromtimestamp(time.time()).strftime('%Y-%m-%d_%H-%M-%S')

def write_sample(self, sample_list):
"""Create or append sample to XML log file."""
node_sample_time = etree.Element('sample')
node_sample_time.set('time', self.__create_timestamp())
for i in sample_list:
app_dict = i.get('values')
for a in app_dict:
sample = etree.Element(a)
app = str(i.get('appname')).lower()
sample.set('app', app)
sample.text = app_dict[a]
node_sample_time.append(sample)
self.periodic.append(node_sample_time)
self.__write_out(logfile)

我遇到的问题是,虽然如果日志文件很小,这个脚本工作得很好,但它被用于我们必须每隔几秒对相同进程进行采样的情况,有时甚至运行几天。这可以生成最大 10 MB 的日志文件(此时它们会轮换)。在这种大小的日志上运行脚本大约需要 15 秒,并且在整个过程中占用 1 个 CPU 核心,更不用说过多的内存使用和磁盘 I/O。

__write_out() 可能效率不高,因为它运行两个搜索和替换操作(去除弄乱 toprettyxml 的无关换行符和制表符),然后发送整个每次迭代通过 minidom 输出。这样做是因为 cElementTree 不会自行缩进节点,从而导致生成的文件不便于人类阅读。然而,真正的问题似乎只是每次迭代都解析和写入整个日志本质上是不可扩展的。

我的第一个想法是完全放弃使用 cElementTree,“手动”将结果格式化为 XML 字符串,然后在每次迭代时将它们附加到日志文件的末尾(不解析现有文件根本)。这种方法的问题是生成的文件将不是有效的 XML,因为根节点没有结束标记。我可以让记录器在完成时写入一个(它目前设计为无限循环直到 SIGTERM,然后在退出时做一些清理)但理想情况下我希望日志文件在记录期间始终是有效的 XML。它在某种程度上也显得笨拙。

总结:写入基于 XML 的日志文件的最佳方法是什么,该文件具有良好的性能和合理的资源使用率,可以扩展到大约 10 MB 的日志文件大小?

最佳答案

如果我没理解错的话,您可以创建每个“周期性”元素,就好像它是整个文档一样(因此您仍然可以使用 cElementTree 或类似工具;或者只是将其手动创建为字符串)。

然后当需要写出这样一个(小)元素时,打开您的日志文件,并寻找到减去“”(7)的长度的结尾。写新的周期元素,然后重写“”,应该没问题。

如果你想格外小心,移动到末尾后,阅读最后 7 个字符以确保它们符合预期,然后再次搜索以再次将文件定位在它们之前。

关于python - 编写基于 XML 的大型日志文件时性能不佳,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29217911/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com