gpt4 book ai didi

Python:使用 xlrd 和 pandas 解析 .xls 文件失败

转载 作者:行者123 更新时间:2023-12-01 04:57:13 25 4
gpt4 key购买 nike

我正在尝试解析 .xls 文件。我尝试过:

# Import libraries
import pandas as pd
import matplotlib.pyplot as plt
import numpy.random as np
import sys

print 'Python version ' + sys.version
print 'Pandas version: ' + pd.__version__

# Parse a specific sheet
df = pd.read_excel('NextDebitCreditCard.xls', 0, index_col='StatusDate')
df.dtypes

但我不断得到

  File "/usr/lib/python2.7/dist-packages/xlrd/book.py", line 1252, in bof_error
raise XLRDError('Unsupported format, or corrupt file: ' + msg)
xlrd.biffh.XLRDError: Unsupported format, or corrupt file: Expected BOF record; found '<html la'

我在 xlrd 中遇到了同样的错误。我不确定它是否是常规 xls 文件,因此我在此处添加文件的开头和结尾:

<html lang="he">
<head>
<META CONTENT="text/html" HTTP-EQUIV="Content-Type" charset="iso-8859-8"></META><META CONTENT="no-cache" HTTP-EQUIV="Pragma"></META><META CONTENT="0" HTTP-EQUIV="expires"></META><title>
<TEXT>
some text here
.....
.....
.....
.....
&#8362; 942.56</td></tr></table>
</div>
</div></td><td class="homeMessagesTd" id="leftSide">
</td></tr></table></form></body></html>

有什么想法吗?谢谢!

最佳答案

从评论中我可以看到您意识到这不是一个“真正的”Excel 文件,而是一个以 .xls 扩展名保存的 HTML 文件。由于您没有向我们提供完整的文件,我们只能猜测哪些可能有效,哪些可能无效。

我将从 Pandas 中的 HTML 解析工具开始:

http://pandas.pydata.org/pandas-docs/stable/io.html#io-read-html

你可以尝试:

df = pd.read_html('NextDebitCreditCard.xls')

如果这还不能让您接近,那么也许是时候进入 beautifulsoup 了。

关于Python:使用 xlrd 和 pandas 解析 .xls 文件失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27114978/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com