python - 如何将包含跨越多列的单元格的 html 表格转换为 Python 3 中的列表列表？-6ren

python - 如何将包含跨越多列的单元格的 html 表格转换为 Python 3 中的列表列表？

转载作者：太空宇宙更新时间：2023-11-03 16:44:26

我是 Python 新手，已经开始了一个需要一些网络抓取的小项目。我开始使用 BS4，但在尝试将包含跨多个列的单元格的 html 表格转换为列表列表(在 Python 3 中)时遇到了一些困难。

我想将此 html 表转换为列表列表，以便能够使用终端表以文本模式打印它。因此，我试图获取一些空列表单元格来填充该行的其余部分，只要有一个跨 5 列的 HTML 单元格即可。

我认为我可能把一些在(流利的)Python 中可以更容易完成的事情变得过于复杂了。有人可以帮忙吗？

此时我的代码:

    #!/usr/local/bin/python3
    # encoding: utf-8
    


    # just did a lot of experiments, so I will need to clean these imports! (some of them are related to the rest of the project anyway)
import sys
    import os
    import os.path
    import csv
    import re
    from textwrap import fill as tw_fill
    from random import randint
    from datetime import datetime, timedelta
    from copy import deepcopy
    from platform import node
    

    from colorclass import Color
    from urllib3 import PoolManager
    from bleach import clean
    from bs4 import BeautifulSoup
    from terminaltables import SingleTable
    
        
    
    def obter_estado_detalhado(tracking_code):
        """ Verify detailed tracking status for CTT shipment
        Ex: obter_estado_detalhado("EA746000000PT")
        """    
        ctt_url = "http://www.cttexpresso.pt/feapl_2/app/open/cttexpresso/objectSearch/objectSearch.jspx?lang=def&objects=" + tracking_code + "&showResults=true"
        estado = "- N/A -"
        
        dados_tracking = [[
            "Hora",
            "Estado",
            "Motivo",
            "Local",
            "Recetor"
            ]
        ]
        
    #    try:
        http = PoolManager()
        r = http.urlopen('GET', ctt_url, preload_content=False)
        soup = BeautifulSoup(r, "html.parser")
        records = dados_tracking
        table2 = soup.find_all('table')[1]
    
        l = 1
        c = 0
        for linha in table2.find_all('tr')[1:]:
            records.append([])
            for celula in linha.find_all('td')[1:]:
                txt = clean(celula.string, tags=[], strip=True).strip()
                records[l].append(txt)
                c += 1
            l += 1
            tabela = SingleTable(records)
            print(tabela.table)
        
        print(records)
        tabela = SingleTable(records)
        print(tabela.table)
        exit()  # This exit is only for testing purposes...
        
    
    
    obter_estado_detalhado("EA746813946PT")

示例 HTML 代码 (as in this link) :

<table class="full-width">
                    <thead>
                        <tr>
                            <th>
                                Nº de Objeto 
                            </th>
                            <th>
                                Produto
                            </th>
                            <th>
                                Data
                            </th>
                            <th>
                                Hora
                            </th>
                            <th>
                                Estado
                            </th>
                            <th>
                                Info
                            </th>
                        </tr>
                    </thead>
                    
                    <tbody><tr>
                        <td>
                            
                                EA746813813PT                                   
                                    
                                
                            
                            
                        </td>    
                        <td>19</td> 
                        <td>2016/03/31</td> 
                        <td>09:40</td>

                        <td>
                                                                    
                                
                                    
                                    
                                    
                                        Objeto entregue
                                    
                                
                                                        
                        </td>
                        
                        <td class="truncate">
                            <a id="detailsLinkShow_0" onclick="toggleObjectDetails('0', true);" class="hide">[+]Info</a>
                            <a id="detailsLinkHide_0" class="" onclick="toggleObjectDetails('0', false);">[-]Info</a>
                        </td>
                    </tr>
                <tr></tr>
                <tr id="details_0" class="">
                        <td colspan="6">
                        
                            
                            
                            
                            
                            
                            
                                        
                        
                            
                            <div class="full-width-table-scroller"><table class="full-width">
                                <thead>
                                    <tr>
                                        <th>Hora</th>
                                        <th>Estado</th>
                                        <th>Motivo</th>
                                        
                                        <th>Recetor</th>
                                    </tr>
                                </thead>
                                
                                    <tbody><tr>
                                                
                                            </tr>
                                        
                                        <tr class="group">                          
                                                <td colspan="5">quinta-feira, 31 Março 2016</td>
                                            </tr><tr><td>09:40</td>  
                                        <td>Entrega conseguida</td> 
                                        <th>Local</th><td>-</td> 
                                        <td>4470 - MAIA</td>
                                        <td>DONIEL MARQUES</td> 
                                    </tr>   
                                
                                    <tr>
                                        
                                        <td>08:32</td>   
                                        <td>Em distribuição</td> 
                                        <td>-</td> 
                                        <td>4470 - MAIA</td>
                                        <td>-</td>  
                                    </tr>   
                                
                                    <tr>
                                        
                                        <td>08:29</td>   
                                        <td>Receção no local de entrega</td> 
                                        <td>-</td> 
                                        <td>4470 - MAIA</td>
                                        <td>-</td>  
                                    </tr>   
                                
                                    <tr>
                                        
                                        <td>08:29</td>   
                                        <td>Receção nacional</td> 
                                        <td>-</td> 
                                        <td>4470 - MAIA</td>
                                        <td>-</td>  
                                    </tr>   
                                
                                    <tr>
                                        
                                        <td>00:17</td>   
                                        <td>Envio</td> 
                                        <td>-</td> 
                                        <td>C. O. PERAFITA</td>
                                        <td>-</td>  
                                    </tr>   
                                
                                    <tr>
                                                
                                            </tr><tr class="group">                         
                                                <td colspan="5">quarta-feira, 30 Março 2016</td>
                                            </tr>
                                        
                                        <tr><td>23:40</td>   
                                        <td>Expedição nacional</td> 
                                        <td>-</td> 
                                        <td>C.O. PERAFITA (OPE)</td>
                                        <td>-</td>  
                                    </tr>   
                                
                                    <tr>
                                        
                                        <td>20:39</td>   
                                        <td>Receção no local de entrega</td> 
                                        <td>-</td> 
                                        <td>C. O. PERAFITA</td>
                                        <td>-</td>  
                                    </tr>   
                                
                                    <tr>
                                        
                                        <td>20:39</td>   
                                        <td>Receção nacional</td> 
                                        <td>-</td> 
                                        <td>C. O. PERAFITA</td>
                                        <td>-</td>  
                                    </tr>   
                                
                                    <tr>
                                        
                                        <td>20:39</td>   
                                        <td>Aceitação</td> 
                                        <td>-</td> 
                                        <td>C. O. PERAFITA</td>
                                        <td>-</td>  
                                    </tr>   
                                    
                            </tbody></table></div>
                                
                            
                            
                            
                            
                        </td>
                </tr>       
        
        </tbody></table>

最佳答案

这与主表输出匹配:

from bs4 import BeautifulSoup

html = requests.get("http://www.cttexpresso.pt/feapl_2/app/open/cttexpresso/objectSearch/objectSearch.jspx?lang=def&objects=EA746813946PT&showResults=true").content

soup = BeautifulSoup(html)

# get table using id
rows = soup.select("#details_0")[0]

# get the header names and strip whitespace
cols = [th.text.strip() for th in rows.select("th")]

# extract all td's from each table row, the list comp will data grouped row wise.
data = [[td.text.strip() for td in tr.select("td")] for tr in rows.select("tr")]

print(" ".join(cols))
for row in data:
    print(", ".join(row))

输出:

Hora Estado Motivo Local Recetor


terça-feira, 5 Abril 2016
07:58, Em distribuição, -, 4000 - PORTO, -
00:35, Envio, -, C. O. PERAFITA, -
00:20, Expedição nacional, -, C.O. PERAFITA (OPE), -

segunda-feira, 4 Abril 2016
21:45, Receção nacional, -, C. O. PERAFITA, -
21:45, Aceitação, -, C. O. PERAFITA, -

网站:

这是解析器，我想我都尝试过了，唯一有效的是 html5 使用 soup = BeautifulSoup(html,"html5") 输出:

Hora Estado Motivo Local Recetor


terça-feira, 5 Abril 2016
11:02, Entrega conseguida, -, 4000 - PORTO, CANDIDA VIEGAS
07:58, Em distribuição, -, 4000 - PORTO, -
00:35, Envio, -, C. O. PERAFITA, -
00:20, Expedição nacional, -, C.O. PERAFITA (OPE), -

segunda-feira, 4 Abril 2016
21:45, Receção no local de entrega, -, C. O. PERAFITA, -
21:45, Receção nacional, -, C. O. PERAFITA, -
21:45, Aceitação, -, C. O. PERAFITA, -

关于python - 如何将包含跨越多列的单元格的 html 表格转换为 Python 3 中的列表列表？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36455382/

文章推荐： ubuntu - 查看 graphml 文件

文章推荐： c# - xml文档，转义这个字符

文章推荐： ruby - 将 taglib 与 taglib-ruby 捆绑在一起

ruby - 如何要求正确版本的测试/单元
我试图要求 test/unit 的新版本(即不是与 ruby 捆绑的版本) .根据 instructions我用 gem i test-unit 安装它.但是现在当我需要 test/unit我似乎
Systemd 单元，使用外部脚本检查状态
简短版本是: 我有一个 systemd 单元，我想在调用时检查脚本的返回代码: systemctl status service.service 长版本:我有一个 lsb init 脚本正是这样做的，
c# - 单元/集成测试中的反射问题
我正在使用反射动态创建一个类的实例，这工作正常，除非尝试通过单元测试执行此操作 - 我使用的是 MS 测试框架。我收到熟悉的错误:“无法加载文件或程序集‘Assy’或其依赖项之一。系统找不到指定的文
javascript - (单元)测试网站界面的方法
我想知道测试网站“界面功能”的最佳实践是什么。我对哪些方法可用于测试界面和动态生成的内容感兴趣。特别是，我很难弄清楚是否可以为需要用户交互的操作创建自动化测试，或者这是否只是浪费时间，我应该让一些
python - (单元)测试python信号处理程序
我有一个简单的 Python 服务，其中有一个无限执行某些操作的循环。在各种信号上，sys.exit(0) 被调用，这导致 SystemExit 被引发，然后如果可以的话应该进行一些清理。在测试中，
c# - HoughLinesP参数!单元？
我正在使用 OpenCV 2.4.2 这是 OpenCV 文档中的引文 C++: void HoughLinesP(InputArray image, OutputArray lines, doubl
c# - 单元/集成测试和恢复数据库
忙于 C# 中的自动化测试用例，我们需要在每次测试后恢复数据库快照。问题是，当运行多个测试时它会失败，因为“其他用户正在使用数据库时无法更改数据库状态。” 我们使用 SqlConnection.Cle
C# 单元(文件范围)命名空间
我阅读了 C# 规范并用谷歌搜索了它，但一无所获。我 99% 肯定 C# 中没有像单元命名空间指令这样的功能，但问题是:为什么？是否有惯用或技术原因？这很方便，尤其是当我们的大部分文件都由单个命名
ios - iOS 单元/应用程序测试目标如何与其宿主应用程序中的类进行链接？
我目前正在尝试向我的应用程序(一个非常老的项目......评论说 iOS 2.0)添加单元测试(精确的应用程序测试)并且总是偶然发现 undefined symbols for architectur
delphi - 如何向项目添加新的(自制)单元
我正在使用Delphi 7，并且有一个新单元要在我的项目中使用。我已经编译了新的。当我尝试通过将其添加到uses子句在项目中使用此单元时，出现错误，提示未找到.dcu文件。我还尝试将文件的完整路径放在
unit-testing - 单元/集成测试nHibenrate查询
场景：我需要编写一个复杂的nHibernate查询，该查询将返回预计的DTO，但是我想使用TDD方法。该方法如下所示： public PrintDTO GetUsersForPrinting(int
slideshow - 以幻灯片模式运行 Jupyter 单元
您可以通过运行以下命令在事件 html 设置中显示 Jupyter 笔记本: $ jupyter nbconvert untitled.ipynb --to slides --post serve 有
adsense - 如何在一个页面上使用多个 AdSense 单元？
如何在一个网站上拥有多个 AdSense 单元？ Google 提供的唯一代码是按单位计算的。 (adsbygoogle = window.adsbygoogle || []).push({})
unit-testing - 单元/集成测试中文件系统依赖关系的最佳实践
我刚刚开始为大量代码编写测试。有很多类依赖于文件系统，即读取 CSV 文件、读/写配置文件等。当前测试文件存储在项目(这是一个 Maven2 项目)的 test 目录中，但由于多种原因该目录并不总是
unit-testing - (单元)测试驱动开发
我对 TDD 还很陌生，在单元测试方面也不是很老练，所以才有这个问题。我有这个用 PHP 编写的遗留函数 function foo(){ x = bar(); y = baz();
java - 垂直排列 JCheckBox 单元
我创建了一个程序，在 Swing 窗口的一侧显示结果过滤选项，但默认情况下它们水平相邻显示，这浪费了我在 BorderLayout 的西侧分配的空间。我可以在构造函数或添加语句中传递任何内容来将它们堆
c# - 如何(单元)测试弱引用列表的内存管理功能？
标题不好的借口:如果有人能更好地描述它，请做。我有一个 WeakList类，它“基本上”是一个 List> (虽然不是字面意义上的派生自列表，但它应该对用户完全透明)。现在的基本思想是“如果引用的
ios - 如何继续添加多个原型(prototype)单元
我正在尝试在 UITableView 上添加两个原型(prototype)单元。但是，我不知道如何验证是否能够为每个原型(prototype)“返回”正确的单元格。你们能帮我一下吗？ func ta
swift - 如何重新加载经过编辑的更改的 CloudKit 单元
我正在使用 CloudKit 作为数据库创建一个简单的待办事项列表应用程序。目前我可以添加和删除对象，但对编辑对象感到困惑。编辑项目 Controller protocol EditItemCont
python - 涉及序列的任务需要多少个 RNN 单元？
我正在针对以下任务训练 RNN:给定一个包含 30 个单词的序列，然后将该序列分类为二进制类。在我的网络中拥有超过 30 个单元(LSTM、GRU 或普通 RNN)有好处吗？我在网上看到过很多例子，

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何将包含跨越多列的单元格的 html 表格转换为 Python 3 中的列表列表？