python - 如何将多个 .xls 文件与 python 中的超链接合并？-6ren

python - 如何将多个 .xls 文件与 python 中的超链接合并？

转载作者：行者123 更新时间：2023-12-04 19:52:56

31

4

我正在尝试合并多个 .xls 文件，这些文件有很多列，但有 1 列带有超链接。我尝试使用 Python 执行此操作，但一直遇到无法解决的错误。

为简洁起见，超链接隐藏在文本部分下。以下 ctrl-click 超链接是我在 .xls 文件中遇到的示例:ES2866911 (T3) .

为了提高再现性，我在下面添加了 .xls1 和 .xls2 示例。

xls1:

<表类="s-表"><头>标题Publication_Number<正文>P_A ES2866911 (T3) P_B EP3887362 (A1)

.xls2:

<表类="s-表"><头>标题Publication_Number<正文>P_C AR118706 (A2) P_D ES2867600 (T3)

期望的结果:

<表类="s-表"><头>标题Publication_Number<正文>P_A ES2866911 (T3) P_B EP3887362 (A1) P_C AR118706 (A2) P_D ES2867600 (T3)

我无法在不丢失格式或超链接的情况下将 .xls 文件导入 Python。此外，我无法将 .xls 文件转换为 .xlsx。我不可能获得 .xlsx 格式的 .xls 文件。下面我简单总结一下我尝试过的:

1.) 用 Pandas 阅读是我的第一次尝试。很容易做到，但所有超链接在 PD 中都丢失了，而且原始文件的所有格式都丢失了。

2.) 使用 openpyxl.load 读取 .xls 文件

InvalidFileException: openpyxl does not support the old .xls file format, please use xlrd to read this file, or convert it to the more recent .xlsx file format.

3.) 将 .xls 文件转换为 .xlsx

from xls2xlsx import XLS2XLSX
x2x = XLS2XLSX(input.file.xls)
wb = x2x.to_xlsx()
x2x.to_xlsx('output_file.xlsx')
TypeError: got invalid input value of type <class 'xml.etree.ElementTree.Element'>, expected string or Element

import pyexcel as p
p.save_book_as(file_name=input_file.xls, dest_file_name=export_file.xlsx)
TypeError: got invalid input value of type <class 'xml.etree.ElementTree.Element'>, expected string or Element
During handling of the above exception, another exception occurred:
StopIteration

4.) 即使我们能够使用 xlrd 读取 .xls 文件(这意味着我们永远无法将文件另存为 .xlsx，我什至看不到超链接:

import xlrd
wb = xlrd.open_workbook(file) # where vis.xls is your test file
ws = wb.sheet_by_name('Sheet1')
ws.cell(5, 1).value   
'AR118706 (A2)' #Which is the name, not hyperlink

5.) 我尝试安装旧版本的 openpyxl==3.0.1 来克服类型错误，但没有成功。我尝试使用带有 xlrd 引擎的 openpyxl 打开 .xls 文件，出现类似的打字错误“xml.entree.elementtree.element”错误。我尝试了很多方法将 .xls 文件批量转换为 .xlsx，但都出现了类似的错误。

显然，我可以只用 excel 打开并另存为 .xlsx，但这违背了整个目的，我不能对 100 个文件这样做。

最佳答案

您需要使用 xlrd 库正确读取超链接，使用 pandas 将所有数据合并在一起，并使用 xlsxwriter 正确写入数据。假设所有输入文件具有相同的格式，您可以使用以下代码。

# imports
import os
import xlrd
import xlsxwriter
import pandas as pd

# required functions
def load_excel_to_df(filepath, hyperlink_col):
    book = xlrd.open_workbook(file_path)
    sheet = book.sheet_by_index(0)
    hyperlink_map = sheet.hyperlink_map
    
    data = pd.read_excel(filepath)
    hyperlink_col_index = list(data.columns).index(hyperlink_col)
    
    required_links = [v.url_or_path for k, v in hyperlink_map.items() if k[1] == hyperlink_col_index]
    data['hyperlinks'] = required_links
    return data

# main code
# set required variables
input_data_dir = 'path/to/input/data/'
hyperlink_col = 'Publication_Number'
output_data_dir = 'path/to/output/data/'
output_filename = 'combined_data.xlsx'

# read and combine data
required_files = os.listdir(input_data_dir)
combined_data = pd.DataFrame()
for file in required_files:
    curr_data = load_excel_to_df(data_dir + os.sep + file, hyperlink_col)
    combined_data = combined_data.append(curr_data, sort=False, ignore_index=True)
cols = list(combined_data.columns)
m, n = combined_data.shape
hyperlink_col_index = cols.index(hyperlink_col)

# writing data
writer = pd.ExcelWriter(output_data_dir + os.sep + output_filename, engine='xlsxwriter')
combined_data[cols[:-1]].to_excel(writer, index=False, startrow=1, header=False) # last column contains hyperlinks
workbook  = writer.book
worksheet = writer.sheets[list(workbook.sheetnames.keys())[0]]
for i, col in enumerate(cols[:-1]):
    worksheet.write(0, i, col)
for i in range(m):
    worksheet.write_url(i+1, hyperlink_col_index, combined_data.loc[i, cols[-1]], string=combined_data.loc[i, hyperlink_col])
writer.save()

引用资料:

阅读超链接 - https://stackoverflow.com/a/7057076/17256762
pandas to_excel 标题格式 - Remove default formatting in header when converting pandas DataFrame to excel sheet
使用 xlsxwriter 编写超链接 - https://xlsxwriter.readthedocs.io/example_hyperlink.html

关于python - 如何将多个 .xls 文件与 python 中的超链接合并？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/70472885/

31

4

0

文章推荐： excel - 将 FSO 设置为 FileSystemObject 与 Scripting.FileSystemObject

文章推荐： excel - 确定化学式中的原子总数

文章推荐： Excel:如何将两列合并为一列(来自不同的工作表或单独的列)

python - 将结果写入.xls(向网页提交2个查询，并将不同的结果存储到.xls)
我正在使用 Python 2.76 向 .aspx 网页提交查询并通过 BeautifulSoup 获取结果，并希望将它们存储到 Excel 电子表格中。 import mechanize impor
hadoop - 如何将多个 xls 文件中的 xls 数据加载到配置单元中？
我正在学习使用 Hadoop 执行大数据相关操作。我需要对拆分为 8 个 xls 文件的数据集集合执行一些查询。每个 xls 文件都有多个工作表，查询只涉及其中一个工作表。数据集可以在这里下载:h
Java API，它将压缩 xls 文件为 xls 格式
我有一个 excel 文件，但文件大小太大，您有什么建议可以让我们以相同的格式减小文件大小吗？最佳答案有一些常见技巧可以减小 Excel 文档的大小，同时保持 Excel 格式。这取决于文件的具体
python - 将多个 .xls 文件添加到单个 .xls 文件，使用文件名命名选项卡
我有多个目录，每个目录包含任意数量的 .xls 文件。我想获取任何给定目录中的文件并将它们合并到一个 .xls 文件中，使用文件名作为选项卡名称。例如，如果有文件 NAME.xls、AGE.xls、L
python - 使用 Python 仅复制 XLS 的工作表以成为新 XLS 中的新工作表？
使用下面的 Python 测试代码，我试图将 Excel (*.xls) 文件中唯一的工作表复制到一个包含一个工作表的新 Excel 文件中。输入电子表格如下所示: from copy import
excel - 通过工作表上设计的自定义按钮，使用宏 vba 将一个 xls 的所有工作表复制到另一个 xls 文件
我有一个 xls 文件，其中包含 15 张数据，我想将所有数据复制到另一个 xls 文件中。我有很多这样的文件，所以我想使用宏 vba 编码对其进行自定义。我想在第一张纸上设计按钮，它会运行宏代码并将
java - 从 xls 读取数据，使 xls 文件在 selenium 中损坏
我正在尝试从 xls 中读取数据，该数据运行良好 java.io.File f1=new java.io.File("E:/SELENIUM DATA/First_P1/DATA_SHEET.x
java - 将扩展名为 .xls 但另存为 xml 电子表格 2003 的文件转换为 .xls 文件格式
我有一个文件 .XLS 扩展名，但保存为 XMl 电子表格 2003 ，想要读取该文件并使用 java 代码将其转换为 .XLS 扩展名，我的代码如下 - 公共(public)类 ExcelImpor
java - Servlet 中的 POI HSSF XLS 下载问题 - 新的 XLS 文件与以前的工作表一起下载
我已经创建了 Servlet，它下载 POI XLS 文件，在第一个 get/post 请求时，新文件是使用sheet0下载的。当我执行第二个请求时，正在下载两张新文件，sheet0 是上一个请求，s
ruby-on-rails - 在 Ruby on Rails 中将 YYYYDDMM_rest_of_filename.xls 更改为 YYYYMMDD_rest_of_filename.xls
我有大量格式为:YYYYDDMM_rest_of_filename.xls 的 excel 文件我如何使用 ruby 在 YYYYMMDD_rest_of_filename.xls 的可能数量较
php - firefox 将 xlsx 文件检测为 97-2003 工作簿 (.xls)，将文件另存为 example.xlsx.xls
我将 xlsx 文件保存在 firefox 中，浏览器将其识别为 97-2003 工作簿 (.xls) 当我打开 xls 文件时，它会生成弹出窗口我也在不同的机器上尝试过这个，它在 firefox
PHPExcel将字符串日期放入.xls
伙计们。我在 DB 有日期作为字符串“d/m/Y”。当我将此日期输入 Excel 时，它会显示正常日期，例如 2000 年 3 月 10 日，但是当我单击单元格时，它会显示值 '03/10/2000
xls - 使用python将文本文件转换为excel文件
我正在研究 INFORMIX 4GL 程序。该程序生成输出文本文件。这是输出的示例: Lot No|Purchaser name|Billing|Payment|Deposit|Balance|
asp将table生成excel文件(xls)
代码如下: <%@LANGUAGE="VBSCRIPT" CODEPAGE="936"%> <%
php - 以自定义方式导出到 xls
我的应用程序正在从 MYSQL 动态获取数据并显示。问题是我什至必须选择“导出到 Xls”文件。这些文件应该是 A4 大小，所以我应该自定义 Xls 文件中内容的字体大小以适应 A4 大小。如果可能的
java - 结果集 -> XLS
我必须运行一些 SQL 查询并将结果放入电子表格中。由于我处于 Spring/Java 环境中，因此我打算使用 JDBC 运行查询、迭代 ResultSet，并使用 Jakarta POI 创建一个简
仅从 xls 读取某些列
我有一个包含多张工作表的 Excel 电子表格。格式如下: Date A B C D E F
jquery 数据表插件将文件另存为 .xls
我正在使用 jquery 数据表插件来显示数据。我添加了文件另存为 excel、csv 和 pdf 的选项。虽然它允许我将表格内容保存为文件。但在 excel 和 csv 情况下，它都会将文件保存为
iOS:读取 XLS
我正在尝试弄清楚如何读取 XLS 文档的内容并且我能够很好地获取字节，但我不知道从这里到哪里去。尝试 [[NSString alloc] initWithBytes:data.bytes length
php_excel07-如何根据单元格数据增加单元格的高度(xls)
在我的应用程序中，我需要以预定义格式导出到 xls 文件。所以我刚刚集成了 php_excel2007。我正在使用一个具有预定义格式的模板。问题这里的单元格数据可能会动态变化。如果数据远大于单元

首页

博学

6Ren·AI

商城

python - 如何将多个 .xls 文件与 python 中的超链接合并？