gpt4 book ai didi

python - 如何使用Python分割XML文件(在特定的N节点上),同时保留页眉和页脚?

转载 作者:行者123 更新时间:2023-11-30 22:38:44 25 4
gpt4 key购买 nike

我是 Python 新手,我不知道从哪里开始解决我的问题。

这是我需要做的:从一个文件夹中读取一个 XML 文件,并将其拆分为关于特定重复节点(将由用户输入)的多个 XML 文件(在另一个文件夹中),同时保留 header (什么)位于该节点之前)和页脚(位于该节点之后)。

这是一个例子:

<?xml version="1.0"?>
<catalog catalogName="cat1" catalogType="bestsellers">
<headerNode node="1">
<param1>value1</param1>
<param2>value2</param2>
</headerNode>
<book id="bk101">
<author>Gambardella, Matthew</author>
<title>XML Developer's Guide</title>
<genre>Computer</genre>
<price>44.95</price>
<publish_date>2000-10-01</publish_date>
<description>An in-depth look at creating applications
with XML.</description>
</book>
<book id="bk102">
<author>Ralls, Kim</author>
<title>Midnight Rain</title>
<genre>Fantasy</genre>
<price>5.95</price>
<publish_date>2000-12-16</publish_date>
<description>A former architect battles corporate zombies,
an evil sorceress, and her own childhood to become queen
of the world.</description>
</book>
<book id="bk103">
<author>Corets, Eva</author>
<title>Maeve Ascendant</title>
<genre>Fantasy</genre>
<price>5.95</price>
<publish_date>2000-11-17</publish_date>
<description>After the collapse of a nanotechnology
society in England, the young survivors lay the
foundation for a new society.</description>
</book>
<footerNode node="2">
<param1>value1</param1>
<param2>value2</param2>
</footerNode>
</catalog>

因此,目的应该是拥有 3 个 XML 文件(因为我们有 3 个“book”节点实例),其中包含“headerNode”+ 1 个“book”+“footerNode”。

第一个文件如下所示:

<?xml version="1.0"?>
<catalog catalogName="cat1" catalogType="bestsellers">
<headerNode node="1">
<param1>value1</param1>
<param2>value2</param2>
</headerNode>
<book id="bk101">
<author>Gambardella, Matthew</author>
<title>XML Developer's Guide</title>
<genre>Computer</genre>
<price>44.95</price>
<publish_date>2000-10-01</publish_date>
<description>An in-depth look at creating applications
with XML.</description>
</book>
<footerNode node="2">
<param1>value1</param1>
<param2>value2</param2>
</footerNode>
</catalog>

唯一的限制是它需要使用“ElementTree”而不是“lxml”库来完成(因为 lxml 不包含在生产依赖项中)。

编辑:这里是基于“MK Ultra”答案的代码。

现在我修改它以将两个参数传递给脚本(第一个是不带扩展名的 XML 文件的名称,第二个是分割节点),现在我读取 XML 并在同一文件夹中生成 XML 文件比剧本。 (我在循环中使用索引来命名文件夹)

import sys
import xml.etree.ElementTree as ET
import os

# Get the current directory
cwd = os.getcwd()
# Load the xml
doc = ET.parse(r"%s/%s.xml" % (cwd,sys.argv[1]))
root = doc.getroot()
# Get the header element
header = root.find("headerNode")
# Get the footer element
footer = root.find("footerNode")
# loop over the books and create the new xml file
for idx,book in enumerate(root.findall(sys.argv[2])):
top = ET.Element(root.tag)
top.append(header)
top.append(book)
top.append(footer)
out_book = ET.ElementTree(top)
# the output file name will be the ID of the book
out_path = "%s/%s_%s.xml" % (cwd,sys.argv[1],idx)
out_book.write(open(out_path, "wb"))

如何使“headerNode”/“footerNode”部分通用?我的意思是它是“书”或其他类似“小说”、“论文”等的东西。只有脚本的用户(显然不是我)在运行脚本时才知道正确的值。

EDIT2:刚刚修改了原始文件以将属性添加到“目录”节点,因为我无法在创建分割文件时复制属性。

最佳答案

从我的角度来看,你可以做这样的事情:

import xml.etree.ElementTree as ET

# Load the xml
doc = ET.parse(r"d:\books.xml")
root = doc.getroot()
# Get the header element
header = root.find("headerNode")
# Get the footer element
footer = root.find("footerNode")
# loop over the books and create the new xml file
for book in root.findall('book'):
top = ET.Element(root.tag)
top.append(header)
top.append(book)
top.append(footer)
out_book = ET.ElementTree(top)
# the output file name will be the ID of the book
out_path = "%s.xml" % book.attrib["id"]
out_book.write(open(out_path, "wb"))

关于python - 如何使用Python分割XML文件(在特定的N节点上),同时保留页眉和页脚?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43436086/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com