- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个从 Netsuite ERP 下载的“XLS”文件。文件根目录显示“.XLS”,但它实际上是一个 XML 文件。我有一个 pandas 脚本,它将组合几个 XLS 或 XLSX 文件,但 pandas 似乎无法处理这种奇怪的 XLS/XML 文件类型,所以我有另一个脚本试图解析 XML 数据并保存到 XLS 或 XLSX。然而,下面的脚本似乎不起作用,因为它导致“无”。谁能用我的示例代码、新代码或解决这个奇怪的 XLS/XML 解析问题的新方法为我指明正确的方向?
先感谢您!
XML 示例代码:
<?xml version="1.0" encoding="utf-16"?>
<Workbook xmlns="urn:schemas-microsoft-com:office:spreadsheet" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:x="urn:schemas-microsoft-com:office:excel" xmlns:ss="urn:schemas-microsoft-com:office:spreadsheet" xmlns:html="http://www.w3.org/TR/REC-html40">
<DocumentProperties xmlns="urn:schemas-microsoft-com:office:office">
<Author>NetSuite Reports</Author>
<LastAuthor>NetSuite Reports</LastAuthor>
<Company>NetSuite</Company>
</DocumentProperties>
<Styles>
<Style ss:ID="company">
<Alignment ss:Horizontal="Center" />
<Font ss:Size="12" ss:Bold="1" />
</Style>
<Style ss:ID="subcompany">
<Alignment ss:Horizontal="Center" />
<Font ss:Size="14" ss:Bold="1" />
</Style>
<Style ss:ID="error">
<Alignment ss:Horizontal="Center" />
<Interior ss:Color="#f0d0d0" ss:Pattern="Solid" />
<Font ss:Bold="1" />
</Style>
<Style ss:ID="header_l">
<Alignment ss:Horizontal="Left" />
<Font ss:Size="7" ss:Bold="1" />
<Interior ss:Color="#d0d0d0" ss:Pattern="Solid" />
</Style>
<Style ss:ID="header_r">
<Alignment ss:Horizontal="Right" />
<Font ss:Size="7" ss:Bold="1" />
<Interior ss:Color="#d0d0d0" ss:Pattern="Solid" />
</Style>
<Style ss:ID="header_c">
<Alignment ss:Horizontal="Center" />
<Font ss:Size="7" ss:Bold="1" />
<Interior ss:Color="#d0d0d0" ss:Pattern="Solid" />
</Style>
<Style ss:ID="scheckbox">
<Alignment ss:Vertical="Center" ss:Horizontal="Center" />
</Style>
<Style ss:ID="Default" ss:Name="Normal">
<Alignment ss:Vertical="Bottom" />
<Borders />
<Font ss:FontName="Arial" ss:Size="8" />
<Interior />
<NumberFormat />
<Protection />
</Style>
<Style ss:ID="s53">
<Alignment ss:Vertical="Center" ss:Horizontal="Left" />
<Font ss:FontName="Arial" ss:Size="8" ss:Color="#000000" ss:Bold="1" ss:Italic="0" />
<Borders>
<Border ss:Position="Top" ss:LineStyle="Dash" ss:Weight="1" ss:Color="#cccccc" />
</Borders>
</Style>
<Style ss:ID="s52">
<Alignment ss:Horizontal="Left" ss:Indent="1" />
<Font ss:FontName="Arial" ss:Size="8" ss:Color="#000000" ss:Bold="0" ss:Italic="0" />
<Borders />
</Style>
<Style ss:ID="s51">
<Alignment ss:Vertical="Center" ss:Horizontal="Right" />
<Font ss:FontName="Arial" ss:Size="8" ss:Color="#000000" ss:Bold="0" ss:Italic="0" />
<NumberFormat ss:Format=""€"#,##0.00" />
<Borders />
</Style>
<Style ss:ID="s50">
<Alignment ss:Vertical="Center" ss:Horizontal="Left" />
<Font ss:FontName="Arial" ss:Size="8" ss:Color="#000000" ss:Bold="1" ss:Italic="0" />
<Borders />
</Style>
<Style ss:ID="s58">
<Alignment ss:Horizontal="Left" ss:Indent="2" />
<Font ss:FontName="Arial" ss:Size="8" ss:Color="#000000" ss:Bold="1" ss:Italic="0" />
<Borders>
<Border ss:Position="Top" ss:LineStyle="Dash" ss:Weight="1" ss:Color="#cccccc" />
</Borders>
</Style>
<Style ss:ID="s54">
<Alignment ss:Vertical="Center" ss:Horizontal="Right" />
<Font ss:FontName="Arial" ss:Size="8" ss:Color="#000000" ss:Bold="1" ss:Italic="0" />
<NumberFormat ss:Format=""€"#,##0.00" />
<Borders>
<Border ss:Position="Top" ss:LineStyle="Dash" ss:Weight="1" ss:Color="#cccccc" />
</Borders>
</Style>
<Style ss:ID="s59">
<Alignment ss:Horizontal="Left" ss:Indent="1" />
<Font ss:FontName="Arial" ss:Size="8" ss:Color="#000000" ss:Bold="1" ss:Italic="0" />
<Borders>
<Border ss:Position="Top" ss:LineStyle="Dash" ss:Weight="1" ss:Color="#cccccc" />
</Borders>
</Style>
<Style ss:ID="s56">
<Alignment ss:Horizontal="Left" ss:Indent="2" />
<Font ss:FontName="Arial" ss:Size="8" ss:Color="#000000" ss:Bold="1" ss:Italic="0" />
<Borders />
</Style>
<Style ss:ID="s57">
<Alignment ss:Horizontal="Left" ss:Indent="3" />
<Font ss:FontName="Arial" ss:Size="8" ss:Color="#000000" ss:Bold="0" ss:Italic="0" />
<Borders />
</Style>
<Style ss:ID="s55">
<Alignment ss:Horizontal="Left" ss:Indent="1" />
<Font ss:FontName="Arial" ss:Size="8" ss:Color="#000000" ss:Bold="1" ss:Italic="0" />
<Borders />
</Style>
<Style ss:ID="s60">
<Alignment ss:Vertical="Center" ss:Horizontal="Left" />
<Font ss:FontName="Arial" ss:Size="8" ss:Color="#000000" ss:Bold="1" ss:Italic="0" />
<Borders>
<Border ss:Position="Top" ss:LineStyle="Dash" ss:Weight="1" ss:Color="#cccccc" />
</Borders>
</Style>
</Styles>
<Worksheet ss:Name="TrialBalance">
<Table>
<Row>
<Cell ss:StyleID="company" ss:MergeAcross="1">
<Data ss:Type="String">Parent Company</Data>
</Cell>
</Row>
<Row>
<Cell ss:StyleID="company" ss:MergeAcross="1">
<Data ss:Type="String">Company Holdings Inc. : Company A B.V.</Data>
</Cell>
</Row>
<Row>
<Cell ss:StyleID="subcompany" ss:MergeAcross="1">
<Data ss:Type="String">Trial Balance</Data>
</Cell>
</Row>
<Row>
<Cell ss:StyleID="subcompany" ss:MergeAcross="1">
<Data ss:Type="String">End of Feb 2020</Data>
</Cell>
</Row>
<Row>
<Cell ss:StyleID="subcompany" ss:MergeAcross="1">
<Data ss:Type="String" />
</Cell>
</Row>
<Row>
<Cell ss:StyleID="subcompany" ss:MergeAcross="1">
<Data ss:Type="String" />
</Cell>
</Row>
<Row>
<Cell ss:StyleID="header_l">
<Data ss:Type="String">Account</Data>
</Cell>
<Cell ss:StyleID="header_r" ss:MergeDown="0" ss:Index="2">
<Data ss:Type="String">Total</Data>
</Cell>
</Row>
<Row>
<Cell ss:StyleID="s50">
<Data ss:Type="String">10000 - CASH & CASH EQUIVALENTS</Data>
</Cell>
<Cell ss:StyleID="s51" />
</Row>
<Row>
<Cell ss:StyleID="s52">
<Data ss:Type="String">10101 - Bank - 9999 - Company A - EUR</Data>
</Cell>
<Cell ss:StyleID="s51">
<Data ss:Type="Number">1234567.01</Data>
</Cell>
</Row>
<Row>
<Cell ss:StyleID="s53">
<Data ss:Type="String">Total - 10000 - CASH & CASH EQUIVALENTS</Data>
</Cell>
<Cell ss:Formula="SUM(R[-1]C)" ss:StyleID="s54">
<Data ss:Type="Number">1234567.01</Data>
</Cell>
</Row>
</Table>
</Worksheet>
</Workbook>
import pandas as pd
import xml.etree.cElementTree as ET
tree = ET.parse(r"C:\Users\NAME\Documents\rootfolder\examplefile.xls")
root = tree.getroot()
def getvalueofnode(node):
""" return node text or None """
return node.text if node is not None else None
def main():
""" main """
parsed_xml = tree
dfcols = ['account', 'total']
df_xml = pd.DataFrame(columns=dfcols)
for node in parsed_xml.getroot():
account = node.attrib.get('Type="String"')
total = node.find('Type="Number"')
df_xml = df_xml.append(
pd.Series([account, getvalueofnode(total)], index=dfcols),
ignore_index=True)
print(df_xml)
main()
account total
0 None None
最佳答案
避免通过附加像 Series 甚至 DataFrames 这样的对象来构建数据框。相反,构建要绑定(bind)到 DataFrame
的字典列表。此外,由于您的 XML 具有默认命名空间,因此您必须分配一个前缀来解析命名空间下的任何元素
import pandas as pd
import xml.etree.cElementTree as ET
ns = {"doc": "urn:schemas-microsoft-com:office:spreadsheet"}
tree = ET.parse(r"C:\Path\To\Input.xml")
root = tree.getroot()
def getvalueofnode(node):
""" return node text or None """
return node.text if node is not None else None
def main():
""" main """
parsed_xml = tree
data = []
for i, node in enumerate(root.findall('.//doc:Row', ns)):
if i > 6:
data.append({'account': getvalueofnode(node.find('doc:Cell[1]/doc:Data', ns)),
'total': getvalueofnode(node.find('doc:Cell[2]/doc:Data', ns))})
return(pd.DataFrame(data))
output_df = main()
print(output_df)
# account total
# 0 10000 - CASH & CASH EQUIVALENTS None
# 1 10101 - Bank - 9999 - Company A - EUR 1234567.01
# 2 Total - 10000 - CASH & CASH EQUIVALENTS 1234567.01
xlsx
(仅适用于 Windows 用户)使用
Workbook.SaveAs 方法将 Excel 样式的 XML 保存为
win32com
,并使用
pandas.read_excel
跳过适当的行来读取。
import win32com.client
import pandas as pd
# SAVE EXCEL FILE
try:
xlApp = win32com.client.Dispatch("Excel.Application")
xlWbk = xlApp.Workbooks.Open(r"C:\Path\To\Input.xml")
xlWbk.SaveAs(r"C:\Path\To\Output.xlsx", 51)
xlWbk.Close(True)
xlApp.Quit()
except Exception as e:
print(e)
finally:
xlWbk = None; xlApp = None
del xlWbk; del xlApp
# READ EXCEL FILE
output_df = pd.read_excel(r"C:\Path\To\Output.xlsx", skiprows = 6)
print(output_df)
# Account Total
# 0 10000 - CASH & CASH EQUIVALENTS NaN
# 1 10101 - Bank - 9999 - Company A - EUR 1234567.01
# 2 Total - 10000 - CASH & CASH EQUIVALENTS 1234567.01
关于python - 尝试使用 Python 解析 XLS (XML) 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61548942/
我正在使用 Python 2.76 向 .aspx 网页提交查询并通过 BeautifulSoup 获取结果,并希望将它们存储到 Excel 电子表格中。 import mechanize impor
我正在学习使用 Hadoop 执行大数据相关操作。 我需要对拆分为 8 个 xls 文件的数据集集合执行一些查询。每个 xls 文件都有多个工作表,查询只涉及其中一个工作表。 数据集可以在这里下载:h
我有一个 excel 文件,但文件大小太大,您有什么建议可以让我们以相同的格式减小文件大小吗? 最佳答案 有一些常见技巧可以减小 Excel 文档的大小,同时保持 Excel 格式。这取决于文件的具体
我有多个目录,每个目录包含任意数量的 .xls 文件。我想获取任何给定目录中的文件并将它们合并到一个 .xls 文件中,使用文件名作为选项卡名称。例如,如果有文件 NAME.xls、AGE.xls、L
使用下面的 Python 测试代码,我试图将 Excel (*.xls) 文件中唯一的工作表复制到一个包含一个工作表的新 Excel 文件中。 输入电子表格如下所示: from copy import
我有一个 xls 文件,其中包含 15 张数据,我想将所有数据复制到另一个 xls 文件中。我有很多这样的文件,所以我想使用宏 vba 编码对其进行自定义。我想在第一张纸上设计按钮,它会运行宏代码并将
我正在尝试从 xls 中读取数据,该数据运行良好 java.io.File f1=new java.io.File("E:/SELENIUM DATA/First_P1/DATA_SHEET.x
我有一个文件 .XLS 扩展名,但保存为 XMl 电子表格 2003 ,想要读取该文件并使用 java 代码将其转换为 .XLS 扩展名,我的代码如下 - 公共(public)类 ExcelImpor
我已经创建了 Servlet,它下载 POI XLS 文件,在第一个 get/post 请求时,新文件是使用sheet0下载的。当我执行第二个请求时,正在下载两张新文件,sheet0 是上一个请求,s
我有大量格式为:YYYYDDMM_rest_of_filename.xls 的 excel 文件 我如何使用 ruby 在 YYYYMMDD_rest_of_filename.xls 的可能数量较
我将 xlsx 文件保存在 firefox 中,浏览器将其识别为 97-2003 工作簿 (.xls) 当我打开 xls 文件时,它会生成弹出窗口 我也在不同的机器上尝试过这个,它在 firefox
伙计们。我在 DB 有日期作为字符串“d/m/Y”。 当我将此日期输入 Excel 时,它会显示正常日期,例如 2000 年 3 月 10 日,但是当我单击单元格时,它会显示值 '03/10/2000
我正在研究 INFORMIX 4GL 程序。该程序生成输出文本文件。这是输出的示例: Lot No|Purchaser name|Billing|Payment|Deposit|Balance|
代码如下: <%@LANGUAGE="VBSCRIPT" CODEPAGE="936"%> <%
我的应用程序正在从 MYSQL 动态获取数据并显示。问题是我什至必须选择“导出到 Xls”文件。这些文件应该是 A4 大小,所以我应该自定义 Xls 文件中内容的字体大小以适应 A4 大小。如果可能的
我必须运行一些 SQL 查询并将结果放入电子表格中。由于我处于 Spring/Java 环境中,因此我打算使用 JDBC 运行查询、迭代 ResultSet,并使用 Jakarta POI 创建一个简
我有一个包含多张工作表的 Excel 电子表格。格式如下: Date A B C D E F
我正在使用 jquery 数据表插件来显示数据。我添加了文件另存为 excel、csv 和 pdf 的选项。 虽然它允许我将表格内容保存为文件。但在 excel 和 csv 情况下,它都会将文件保存为
我正在尝试弄清楚如何读取 XLS 文档的内容并且我能够很好地获取字节,但我不知道从这里到哪里去。尝试 [[NSString alloc] initWithBytes:data.bytes length
在我的应用程序中,我需要以预定义格式导出到 xls 文件。 所以我刚刚集成了 php_excel2007。我正在使用一个具有预定义格式的模板。 问题 这里的单元格数据可能会动态变化。如果数据远大于单元
我是一名优秀的程序员,十分优秀!