Python、Pandas、XML - 根据长度分割 XML 元素-6ren

Python、Pandas、XML - 根据长度分割 XML 元素

转载作者：行者123 更新时间：2023-12-01 08:59:08

我正在解析一个 XML 文件，其中一个子元素有时包含超过 4000 个字符。当它发生时，我想创建第二个元素来存储溢出字符，然后将其保存到 pandas 数据帧。构建数据框后，我将其导出到 Excel(我知道该怎么做)。

或者在解析时并且它有超过 4000 个字符，动态创建一个新的数据框列来存储数据(我认为这是更好的解决方案，因为数据导出到 Excel 进行报告)

import pandas as pd 
import xml.etree.cElementTree as et 
from bs4 import BeautifulSoup

def getvalueofnode(node):
    if node is None:        
        return None     
    else:       
        soup = BeautifulSoup(node.text) # clean js keywords         
        text = soup.get_text()
        text = text.replace("\n", " ") # remove newline         
        text = text.replace("\r", " ") # remove newline         
        text = text.replace(' +', ' ') # remove duplicate spaces        
        return text

parsedXML = et.parse(filename) 
dfcols = ['datarec','casekey','description','narative'] 
df_xml = pd.DataFrame(columns=dfcols)

for node in parsedXML.getroot():        
    datarec = node.find('DATA_RECORD')
    casekey = node.find('CASE_KEY')         
    description = node.find('DESCRIPTION')      
    narative = node.find('CASE_NARRATIVE')      

    df_xml = df_xml.append(pd.Series([datarec, getvalueofnode(casekey), getvalueofnode(description), getvalueofnode(narative)], index=dfcols), ignore_index=True)

标题并不是那么重要，所以我想我不需要定义我的 df 列名称。因此，如果计数超过 4000，我会动态创建一个新列(在 8000、12000 时会发生什么？)
我正在考虑的方法是在构建数据框之前修复 XML，如果我这样做，如何将其分割为 4000 个字符并创建一个新元素？2.1 如果我确实创建了一个新元素，我不确定我的 getvalueofnode 函数是否会返回所有行？

我该走哪条路？

编辑------ XML 副本

<?xml version="1.0" ?>
<!DOCTYPE main [
  <!ELEMENT main (DATA_RECORD*)>
  <!ELEMENT DATA_RECORD (CASE_KEY,DESCRIPTION?,CASE_NARRATIVE?)+>
  <!ELEMENT CASE_KEY (#PCDATA)>
  <!ELEMENT DESCRIPTION (#PCDATA)>
  <!ELEMENT CASE_NARRATIVE (#PCDATA)>
]>
<main>
  <DATA_RECORD>
    <CASE_KEY>6479351</CASE_KEY>
    <DESCRIPTION>Four bill payments</DESCRIPTION>
    <CASE_NARRATIVE>
        Lorem ipsum dolor sit amet, consectetur adipiscing elit. Quisque accumsan congue risus, tristique imperdiet sapien consectetur nec. Donec ut urna lectus. Duis eget magna et quam aliquet porta non vitae enim. Proin diam ex, ullamcorper in lectus ac, cursus sollicitudin ipsum. Sed lorem urna, congue et condimentum in, rhoncus id nunc. Duis vel mauris pharetra, accumsan neque non, pellentesque leo. Nullam vel nibh vulputate, eleifend turpis condimentum, faucibus mi. Sed mattis dolor non libero scelerisque, in congue ligula ullamcorper. In finibus laoreet erat et venenatis. Aenean tincidunt magna a nisl euismod posuere tristique eget orci. Vestibulum ac turpis vel justo laoreet fermentum rutrum eget est. In hac habitasse platea dictumst. Aenean blandit at leo vel pharetra. Duis vel commodo orci. 

        Praesent tincidunt mattis suscipit. Nam aliquet purus eu nibh ultrices, ac tristique risus euismod. Sed bibendum tincidunt elit, a finibus arcu bibendum at. Praesent turpis neque, auctor at dui ut, cursus rhoncus tortor. Cras rutrum, lacus et molestie posuere, odio purus porta nisi, vel egestas nulla nibh accumsan erat. Orci varius natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Integer imperdiet, ligula ac iaculis iaculis, augue massa dapibus neque, sit amet iaculis orci nibh quis libero. Phasellus tortor ligula, luctus non mi quis, consequat dapibus risus. Vestibulum nec finibus ex. Duis ipsum nisl, tincidunt in erat rhoncus, pulvinar consequat tortor. Curabitur faucibus interdum metus. Morbi egestas ipsum ac rutrum faucibus. Maecenas non leo sem. 

        In ultrices, libero ut sagittis blandit, ex dolor pretium nibh, ac bibendum ligula nunc sed quam. In ultricies, arcu aliquam porta pharetra, orci mauris imperdiet lectus, a facilisis purus purus at sem. Nullam ac feugiat nulla. Duis congue lorem sit amet tellus varius ultrices. Curabitur risus mauris, rutrum ut sodales tempor, varius eget lectus. In eget hendrerit ligula, ac mollis mi. Nulla volutpat felis ornare elit facilisis dapibus. Fusce facilisis nisi est, eget gravida lorem aliquam nec. Ut sed purus sit amet mi sodales vestibulum id sit amet purus. Ut in vestibulum purus. Donec eget enim ipsum. Mauris eget neque neque. Pellentesque feugiat faucibus felis, quis tincidunt nisl. 

        In viverra posuere nulla sed cursus. Praesent nec rutrum enim, et gravida lorem. Fusce gravida lorem quam. Interdum et malesuada fames ac ante ipsum primis in faucibus. Morbi at aliquam lacus. Nulla suscipit nibh eu congue finibus. Phasellus et sem non dolor tempus aliquam. Ut tincidunt elit erat, varius molestie lacus mattis feugiat. Ut lectus ex, suscipit non condimentum sit amet, condimentum vitae sem. Donec et scelerisque leo. 

        Suspendisse velit nisl, suscipit quis metus ac, suscipit sollicitudin libero. Nulla euismod lectus sit amet congue efficitur. Fusce a sagittis magna, ut fringilla mi. Ut suscipit lectus quis luctus euismod. Sed at dui fermentum, tincidunt risus sit amet, pretium diam. Etiam eleifend varius urna nec volutpat. Nam efficitur tellus non volutpat consequat. Mauris ut elit enim. Pellentesque sit amet tincidunt metus. Nam ornare massa quis libero fermentum sagittis. Sed facilisis turpis dolor, eget mattis lectus laoreet eu. 

        Aliquam egestas leo mauris, non placerat dolor euismod eu. Proin eget convallis augue. Suspendisse elit ante, ornare at augue sit amet, molestie elementum leo. Duis id leo in odio consequat auctor. Duis commodo elementum velit, porttitor blandit libero luctus commodo. Nulla in libero vel libero varius faucibus a non tellus. Pellentesque dapibus eget lectus id fringilla. Sed vitae nisi nisi. Sed ultricies orci vitae sapien ultrices, nec ornare tortor placerat. Vestibulum et ligula tristique, rhoncus dolor in, semper lorem. Integer non urna nec risus convallis pharetra. Lorem ipsum dolor sit amet, consectetur adipiscing elit. Etiam vitae ullamcorper leo. Suspendisse potenti. 

        Sed congue, mi rutrum placerat bibendum, erat tortor finibus lorem, eget varius velit lacus ut mauris. Nullam congue placerat mollis. Duis et fringilla nunc, id dictum enim. Morbi non gravida nisi. In nec nunc ante. In vitae odio accumsan, imperdiet lectus a, egestas sapien. In sit amet elit pharetra, scelerisque turpis a, tincidunt nisl. Curabitur tempus eu risus et vulputate. Fusce iaculis diam quis nibh viverra, pulvinar fringilla massa fermentum. Proin elementum in felis sed rutrum. Etiam eget elit vitae turpis ultrices auctor lobortis a erat. Duis fermentum tristique consectetur. Fusce quis est tincidunt, ultricies erat a, pharetra est. 

        Nullam ac velit et ipsum cursus sodales. Pellentesque consequat quis dui ac aliquam. Suspendisse libero turpis, porttitor quis malesuada ut, interdum ac dui. Phasellus varius suscipit tristique. Praesent vel ante vel augue pellentesque tempus. Pellentesque volutpat finibus lorem, non malesuada nisi imperdiet eget. Proin dignissim mi non lorem imperdiet, sit amet mattis neque sodales. Aliquam erat volutpat. Phasellus non nisl metus. 
    </CASE_NARRATIVE>
  </DATA_RECORD>
  <DATA_RECORD>
    <CASE_KEY>6479356</CASE_KEY>
    <DESCRIPTION>Financial Crime Concern</CASE_NARRATIVE>
  </DATA_RECORD>
  <DATA_RECORD>
    <CASE_KEY>6480409</CASE_KEY>
    <DESCRIPTION>Financial Crime Concern :M&#38;S customer was cold called by someone about an investment opportunity, the caller gave customer different options and she chose 3 to invest in. She was unaware of the scam until she was contacted by the police. There is a seperate scion case re the police notification</DESCRIPTION>
    <CASE_NARRATIVE>&#60;p&# Lorum Ipsum</CASE_NARRATIVE>
  </DATA_RECORD>
  <DATA_RECORD>
    <CASE_KEY>6480519</CASE_KEY>
    <DESCRIPTION>Financial Crime </DESCRIPTION>
    <CASE_NARRATIVE>fraudster had set up two new payments and created </CASE_NARRATIVE>
  </DATA_RECORD>
  <DATA_RECORD>
    <CASE_KEY>6480521</CASE_KEY>
    <DESCRIPTION>Triage Europe</DESCRIPTION>
    <CASE_NARRATIVE>Mr. Ockwell is a HB</CASE_NARRATIVE>
  </DATA_RECORD>
</main>

最佳答案

考虑使用 lxml 来运行 XSLT 和 XPath，而不是 BeautifulSoup:

XSLT 可以使用 substring() 转换原始 XML 以添加 OVERFLOW 元素。和 string-length()功能。
XPath 可以解析新的、转换后的树，以便通过循环或列表/字典理解将值映射到 pandas 数据帧。

XSLT (另存为 .xslt 文件，特殊的 .xml 文件)

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
  <xsl:output indent="yes" method="xml"/>
  <xsl:strip-space elements="*"/>

  <!-- IDENTITY TRANSFORM -->
  <xsl:template match="@*|node()">
    <xsl:copy>
      <xsl:apply-templates select="@*|node()"/>
    </xsl:copy>
  </xsl:template>

  <xsl:template match="DATA_RECORD">
    <xsl:copy>
        <xsl:apply-templates select="CASE_KEY|DESCRIPTION"/>
        <CASE_NARRATIVE>
            <xsl:value-of select="substring(normalize-space(CASE_NARRATIVE), 1, 4000)"/>
        </CASE_NARRATIVE>
        <OVERFLOW>
            <xsl:value-of select="substring(normalize-space(CASE_NARRATIVE), 4001, 
                                            string-length(normalize-space(CASE_NARRATIVE)))"/>
        </OVERFLOW>
    </xsl:copy>
  </xsl:template>

</xsl:stylesheet>

Python (包括短列表理解版本和长循环版本)

import lxml.etree as et
import pandas as pd

# LOAD XML AND XSL FILES
xml = 'Input.xml'
xsl = 'XSLT_Script.xsl'

# TRANSFORM SOURCE
transform = et.XSLT(xsl)
result = transform(xml)

# SHORT VERSION
data = [{el.tag: el.text for el in dr.xpath("*")} for dr in result.xpath("//DATA_RECORD")]

# LONG VERSION    
data = []
for dr in result.xpath("//DATA_RECORD"):
    inner = {}
    for el in dr.xpath("*"):
        inner[el.tag] = el.text 
    data.append(inner)

df = pd.DataFrame(data)

输出

print(df)
#   CASE_KEY                                     CASE_NARRATIVE                                        DESCRIPTION                                           OVERFLOW
# 0  6479351  Lorem ipsum dolor sit amet, consectetur adipis...                                 Four bill payments  s velit lacus ut mauris. Nullam congue placera...
# 1  6479356                                               None                            Financial Crime Concern                                               None
# 2  6480409                                     <p Lorum Ipsum  Financial Crime Concern :M&S customer was cold...                                               None
# 3  6480519  fraudster had set up two new payments and created                                   Financial Crime                                                None
# 4  6480521                                Mr. Ockwell is a HB                                      Triage Europe                                               None

关于Python、Pandas、XML - 根据长度分割 XML 元素，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52608412/

文章推荐： java - 将(移动)工具提示应用于光标

文章推荐： visual-studio-2013 - 代码图未出现在 Visual Studio 2013 中

文章推荐： java - 使用 BeanUtils.getProperty() 时出现未知属性错误

xml - 如何在没有源 xml 文件根节点的情况下将一个 xml 文件包含在另一个 xml 中？
正如标题中所问，我有两个如下结构的 XML 文件 A.xml //here I want to include B.xml
c# - 如何将等 xml 标签格式更改为
我有一个 xml 文件。根据我的要求，我需要更新空标签，例如我需要更改 to .是否可以像那样更改标签.. 谢谢... 最佳答案 var xmlString=" "; var properStri
xml - Golang : get inner xml from xml with xml.解码
我有这样简单的 XML: Song Playing 09:41:18 Frederic Delius Violin Son
xml - XML 阅读器是否应该忽略 XML 文件中的连续空格？
在我的工作中，我们有自己的 XML 类来构建 DOM，但我不确定应该如何处理连续的空格？例如 Hello World 当它被读入 DOM 时，文本节点应该包含 Hello 和 World
xml - 比较来自不同 XML 文件的元素值并附加到第一个 XML
我有以下 2 个 xml 文件，我必须通过比较 wd:Task_Name_ID 和 TaskID 的 XML 文件 2。例如，Main XML File-1 wd:Task_Name_ID 具有以下
xml - 使 XML 构建器从字符串中插入 XML
我在 Rails 应用程序中有一个 XML View ，需要从另一个文件插入 XML 以进行测试。我想说“构建器，只需盲目地填充这个字符串，因为它已经是 xml”，但我在文档中看不到这样做的任何内容
xml - XML 数据和 XML 元数据之间有什么区别？
我正在重建一些 XML 提要，因此我正在研究何时使用元素以及何时使用带有 XML 的属性。一些网站说“数据在元素中，元数据在属性中。” 那么，两者有什么区别呢？让我们以 W3Schools 为例:
xml - 文档中的多个 XML 声明是否为格式正确的 XML？
在同一个文档中有两个 XML 声明是否是格式正确的 XML？ hello 我相信不是，但是我找不到支持我的消息来源。来自 Extensible Markup Language
xml - 在 XML 中包装任意 XML
我需要在包装器 XML 文档中嵌入任意(语法上有效的)XML 文档。嵌入式文档被视为纯文本，在解析包装文档时不需要可解析。我知道“CDATA trick”，但如果内部 XML 文档本身包含 CDAT
xml - XML 解析器和 XML 处理器是否相同？
XML 解析器和 XML 处理器是两个不同的东西吗？他们是两个不同的工作吗？最佳答案 XML 解析器和 XML 处理器是一样的。它不适用于其他语言。 XML 是通用数据标记语言。解析 XML 文件已
xml - 在保留格式的同时从文件读取 XML 和从文件读取 XML
我使用这个 perl 代码从一个文件中读取 XML，然后写入另一个文件(我的完整脚本有添加属性的代码): #!usr/bin/perl -w use strict; use XML::DOM; use
xml - 使用 PowerShell 将 system.xml.xml 元素转换为 system.xml.xml 文档
我正在编写一个我了解有限的历史脚本。对象 A 的类型为 system.xml.xmlelement，我需要将其转换为类型 system.xml.xmldocument 以与对象 B 进行比较(类型
xml - 如何将子节点结构从一个 XML 文件复制到另一个 XML 文件(合并两个 XML 文件)？
我有以下两个 XML 文件: 文件1 101 102 103 501 502 503
xml - 如何将子节点结构从一个 XML 文件复制到另一个 XML 文件(合并两个 XML 文件)？
我有以下两个 XML 文件: 文件1 101 102 103 501 502 503
java - 转换性能 XML>XSL>XML 与 XML>JAXB>XML
我有一个案例，其中一个 xml 作为输入，另一个 xml 作为输出:我可以选择使用 XSL 和通过 JAXB 进行 Unmarshalling 编码。性能方面，有什么真正的区别吗？最佳答案首先，程
java - 从 XML 元素获取 XML 时的标签顺序(XML 包含 XML)？
我有包含 XML 的 XML，我想使用 JAXB 解析它 qwqweqwezxcasdasd eee 解析器 public static NotificationRequest parse(Strin
xml - 无法使用 XML 架构和 Perl (XML::LibXML) 验证 XML
xml: mario de2f15d014d40b93578d255e6221fd60 Mario F 23 maria maria
java.net.MalformedURLException : no protocol: [c:\XML\file. xml，c :\XML\file2. xml，c :\XML\file3. xml]
尝试更新 xml 文件数组时出现以下错误。代码片段: File dir = new File("c:\\XML"); File[] files = dir.listFiles(new Filenam
xml - 如何使用 ConvertTo-Xml 和 Select-Xml 加载或读取 XML 文件？
我怎样才能完成这样的事情: PS /home/nicholas/powershell> PS /home/nicholas/powershell> $date=(Get-Date | ConvertT
xml - 删除 XML 节点以将 XML 日志文件的大小减小到给定大小
我在从 xml 文件中删除节点时遇到一些困难。我发现很多其他人通过各种方式在 powershell 中执行此操作的示例，下面的代码似乎与我见过的许多其他示例相同，但我没有得到所需的行为。我的目标是将

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Python、Pandas、XML - 根据长度分割 XML 元素