- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想迭代用户 Stackoverflow 转储文件。问题是它非常大而且是 XML。对我来说 xml 是一个新主题。我阅读了一些文档和 Stackoverflow 帖子,但由于某种原因它不起作用。
XML 格式:
<users>
<row Id="-1" Reputation="1"
CreationDate="2008-07-31T00:00:00.000"
DisplayName="Community"
LastAccessDate="2008-08-26T00:16:53.810"
WebsiteUrl="http://meta.stackexchange.com/"
Location="on the server farm" AboutMe="<p>Hi, I'm not really a person.&" Views="649" UpVotes="245983" DownVotes="924377" AccountId="-1"
/>
</users>
代码:
from xml.etree.ElementTree import iterparse
for evt, elem in iterparse('data/Users.xml', events=('start','end')):
print(evt, elem)
我得到了什么:
For 循环打印了我一堆十六进制代码。最后我得到了内存异常。也许这很正常,因为我第二次尝试它并且它迭代 xml 的速度非常快 0.13 秒
start <Element 'row' at 0x04CC16F0>
end <Element 'row' at 0x04CC16F0>
start <Element 'row' at 0x04CC1810>
希望大家能帮忙解答一下这个问题。我如何获得此输出的值?我想将它保存到 SQL 中。
所有文件大小为 199 GB(徽章、评论、帖子链接、帖子历史记录、用户、帖子、标签和投票)。该问题特定的 Users.xml 大小为 2.49 GB。但我想将 SO 中的所有数据放入数据库中。
谨此致意
Hanah开发
最佳答案
看起来您只需要循环遍历所有 row
元素的 end
事件并使用属性执行某些操作:
from xml.etree.ElementTree import iterparse
for evt, elem in iterparse('data/Users.xml', events=('end',)):
if elem.tag == 'row':
user_fields = elem.attrib
print(user_fields)
这将输出:
{'DisplayName': 'Community', 'Views': '649', 'DownVotes': '924377', 'LastAccessDate': '2008-08-26T00:16:53.810', 'Id': '-1', 'WebsiteUrl': 'http://meta.stackexchange.com/', 'Reputation': '1', 'Location': 'on the server farm', 'UpVotes': '245983', 'CreationDate': '2008-07-31T00:00:00.000', 'AboutMe': "<p>Hi, I'm not really a person.", 'AccountId': '-1'}
关于python - 迭代巨大的 XML 文件并获取值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50010843/
这个问题在这里已经有了答案: final keyword in method parameters [duplicate] (9 个回答) 关闭 8 年前。 在此示例中,声明 Object fina
我的目标:是通过我的函数更新字段获取选定值并使用函数输出值运行它。 问题:当我从列表中选择值时,它不会触发函数,也不会更新字段。 感谢您的帮助。 HTML 12 14 16 18 20 22 24
我有一本具有这种形式的字典: myDict = {'foo': bar, 'foobar baz': qux} 现在,我想拆分字典键中的空格,使其成为下一个键并获取值(重复)。 myDictRev1
vector a; vector b; int temp_holder; cout > temp_holder) a.push_back(temp_holder); cout > temp_h
Java 的开发过程中免不了与 Date 类型纠缠,准备总结一下项目经常使用的日期相关操作,JDK 版本 1.7,如果能够帮助大家节约那么几分钟起身活动一下,去泡杯咖啡,便是极好的,嘿嘿。当然,我
我正在使用 jquery ui 日期选择器来获取 fromDate 和 toDate 以下是from日期的代码 $("#from_date").datepicker({
我是一名优秀的程序员,十分优秀!