html - 使用 pandas read_html 提取 href-6ren

html - 使用 pandas read_html 提取 href

转载作者：行者123 更新时间：2023-12-03 18:31:39

作为我工作的一部分，我需要检查这个 page定期获取特定文件。我发现我可以使用 Pandas 的方法 read_html成功地将表读入数据框(这很方便，因为我可以通过关键字轻松查询特定文档)。
我现在遇到的问题是这种方法无法解析我需要的链接，而是保存纯文本(特别是我指的是第二列，其中包含诸如“1682/0/15-19”之类的数字)。

我想出的代码非常简单:

import pandas as pd

df = pd.read_html('http://www.vru.gov.ua/act_list')[0]

这给了我一个数据框，其中包含我需要的所有信息，除了链接。

是否有可能以某种方式获取链接而不是纯文本，如果是这样，我该怎么做？

我知道如果我使用了 Requests 和 BeautifulSoup 库，就有可能获得 href 链接，但我不知道 BeautifulSoup 库是否足以做到这一点。
有什么提示还是我应该学习 BeautifulSoup？

最佳答案

您可以通过快速谷歌搜索找到教程。您必须遍历标签以编译列表，然后将数据列表转换为数据框:

您也可以像使用 read_html() 那样拉 table ，但您仍然需要返回并获取 html 链接(请参阅下面的选项 2):

import pandas as pd
import requests
from bs4 import BeautifulSoup


url = 'http://www.vru.gov.ua/act_list'



response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
table = soup.find('table')

records = []
columns = []
for tr in table.findAll("tr"):
    ths = tr.findAll("th")
    if ths != []:
        for each in ths:
            columns.append(each.text)
    else:
        trs = tr.findAll("td")
        record = []
        for each in trs:
            try:
                link = each.find('a')['href']
                text = each.text
                record.append(link)
                record.append(text)
            except:
                text = each.text
                record.append(text)
        records.append(record)

columns.insert(1, 'Link')
df = pd.DataFrame(data=records, columns = columns)

选项 2:

import pandas as pd
import requests
from bs4 import BeautifulSoup

url = 'http://www.vru.gov.ua/act_list'
df = pd.read_html(url)[0]

response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
table = soup.find('table')

links = []
for tr in table.findAll("tr"):
    trs = tr.findAll("td")
    for each in trs:
        try:
            link = each.find('a')['href']
            links.append(link)
        except:
            pass

df['Link'] = links

输出:

print (df.to_string())
     №                             Link           Номер Вид документу Дата прийняття                                    Назва документу Примiтки
0    1  http://www.vru.gov.ua/act/18641    1682/0/15-19       Рішення     20-06-2019  Про звільнення Бурана О.М. з посади судді Мали...         
1    2  http://www.vru.gov.ua/act/18643    1684/0/15-19        Ухвала     20-06-2019  Про задоволення заяви члена Вищої ради правосу...         
2    3  http://www.vru.gov.ua/act/18644    1685/0/15-19        Ухвала     20-06-2019  Про відмову у задоволенні заяви адвоката Рохма...         
3    4  http://www.vru.gov.ua/act/18649    1690/0/15-19        Ухвала     20-06-2019  Про продовження строку розгляду скарги судді Х...         
4    5  http://www.vru.gov.ua/act/18650    1691/0/15-19       Рішення     20-06-2019  Про нагородження заохочувальною відзнакою Вищо...         
5    6  http://www.vru.gov.ua/act/18651    1692/0/15-19       Рішення     20-06-2019  Про інформацію робочої групи Вищої ради правос...         
6    7  http://www.vru.gov.ua/act/18619  1660/3дп/15-19        Ухвала     19-06-2019  Про відкриття дисциплінарної справи стосовно с...         
7    8  http://www.vru.gov.ua/act/18620  1661/3дп/15-19        Ухвала     19-06-2019  Про відмову у відкритті дисциплінарних справ з...         
8    9  http://www.vru.gov.ua/act/18624  1665/3дп/15-19        Ухвала     19-06-2019  Прo задоволення заяви члена Третьої Дисципліна...         
9   10  http://www.vru.gov.ua/act/18626  1667/3дп/15-19        Ухвала     19-06-2019  Прo задоволення заяви члена Третьої Дисципліна...         
10  11  http://www.vru.gov.ua/act/18627  1668/3дп/15-19        Ухвала     19-06-2019  Про відмову у відкритті дисциплінарних справ з...         
11  12  http://www.vru.gov.ua/act/18628  1669/3дп/15-19        Ухвала     19-06-2019  Про відмову у відкритті дисциплінарних справ з...         
12  13  http://www.vru.gov.ua/act/18635  1676/2дп/15-19        Ухвала     19-06-2019  Про відкриття дисциплінарної справи стосовно с...         
13  14  http://www.vru.gov.ua/act/18638  1679/2дп/15-19        Ухвала     19-06-2019  Про відмову у відкритті дисциплінарної справи ...         
14  15  http://www.vru.gov.ua/act/18639  1680/2дп/15-19        Ухвала     19-06-2019  Про відмову у відкритті дисциплінарних справ з...         
15  16  http://www.vru.gov.ua/act/18640  1681/2дп/15-19        Ухвала     19-06-2019  Про відмову у відкритті дисциплінарних справ з...         
16  17  http://www.vru.gov.ua/act/18607    1648/0/15-19       Рішення     18-06-2019  Про звільнення Лучко О.О. з посади судді Івано...         
17  18  http://www.vru.gov.ua/act/18608    1649/0/15-19        Ухвала     18-06-2019  Про залишення без розгляду заяви Лазаренко В.В...         
18  19  http://www.vru.gov.ua/act/18609    1650/0/15-19        Ухвала     18-06-2019  Про залишення без розгляду подання Третьої Дис...         
19  20  http://www.vru.gov.ua/act/18610    1651/0/15-19        Ухвала     18-06-2019  Про залишення без розгляду подання Другої Дисц...         
20  21  http://www.vru.gov.ua/act/18615    1656/0/15-19       Рішення     18-06-2019  Про затвердження висновків членів Вищої ради п...         
21  22  http://www.vru.gov.ua/act/18586    1627/0/15-19       Рішення     13-06-2019  Про звільнення Римлянської Г.О.               ...         
22  23  http://www.vru.gov.ua/act/18589    1630/0/15-19       Рішення     13-06-2019  Про затвердження висновку члена Вищої ради пра...         
23  24  http://www.vru.gov.ua/act/18590    1631/0/15-19       Рішення     13-06-2019                   Про призначення Максимішина С.Т.         
24  25  http://www.vru.gov.ua/act/18591    1632/0/15-19       Рішення     13-06-2019                     Про призначення Гавришука О.М.

关于html - 使用 pandas read_html 提取 href，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56757261/

文章推荐： spring - 在 Spring 中何时使用 Qualifier 和 Primary

文章推荐： npm - 使用 Babel 7 运行 Mocha 6 ES6 测试，如何设置？

文章推荐： .net-core - Blazor 路由在同一页面中更改

文章推荐： ruby-on-rails - 来自 root_url 的简单 link_to

r - read_html(url) 和 read_html(content(GET(url), "text")) 之间的区别
我正在看这个很好的答案:https://stackoverflow.com/a/58211397/3502164 . 解决方案的开头包括: library(httr) library(xml2) gr
python - Pandas :read_html
我正在尝试从 wiki URL 中提取美国各州，为此我正在使用 Python Pandas。 import pandas as pd import html5lib f_states = pd.rea
python - pd.read_html 更改了数字格式
无法从 1,2,3,4,5,6 列中获取 CCCCCCC ，将 pd.read_html 格式更改为 123456 后，我的预期结果应保留 1,2,3,4,5,6 HTML 代码 html = "
r - 处理 read_html 对空网页的错误响应
尝试抓取网页标题，但在名为“tweg.com”的网站上遇到问题 library(httr) library(rvest) page.url % html_text() # from rvest r
python - 如何有条件地跳过pd.read_html()中不包含表的html文件？
我想迭代本地计算机上的多个目录，每个目录都包含一个 HTML 文件。我将每个文件的路径存储在列表变量中，但现在我想迭代每个文件并将其读入诸如 pd.read_html 之类的内容，以便从 HTML 文
python - 使用Python保存到excel时如何在pd.read_html()中分隔多个数据帧
我正在尝试保存通过 pd.read_html() 引入的多个表中的数据。如果我打印 df，我可以看到它捕获了所有数据，但是在保存数据时它只将第一个表保存到 excel。如何将表格分开，以便我可以将每个
python - Pandas read_html() 缺少列
我正在使用以下 read_html() 调用来读取表格(在付费专区后面): df = pd.read_html('http://markets.ft.com/data/equities/tearshe
python - Pandas read_html 不会从维基百科页面收集所有表格
我的目标是编写一个解析器，从给定的维基百科 URL 收集所有表格数据。我一直在尝试使用 pandas.read_html 方法从示例维基百科页面收集所有表格。不幸的是，它似乎并没有从页面中收集所有表格
python - pandas.read_html 不支持十进制逗号
我正在使用 pandas.read_html 读取一个 xlm 文件并且几乎完美地工作，问题是该文件使用逗号作为小数点分隔符而不是点(read_html 中的默认值>). 我可以很容易地用一个文件中的
python - 使用第一行作为列名？ Pandas read_html
我有这个简单的一行脚本: from pandas import read_html print read_html('http://money.cnn.com/data/hotstocks/', fl
python - pd.read_html() 导入列表而不是数据框
我使用 pd.read_html() 从网页导入表格，但 Python 没有将数据结构化为数据框，而是将其导入为列表。如何将数据导入为数据框？谢谢! 代码如下: import pandas as pd
python - 找不到 pandas.read_html 表
我正尝试通过此 URL 在 Yahoo Finance 中获取主要世界指数的列表:https://finance.yahoo.com/world-indices .我首先尝试通过运行来获取表中的索引
r - 错误 : could not find function "read_html"
我用这个代码 library(rvest) url<-read_html("http://en.wikipedia.org/wiki/Brazil_national_football_team") 我
python - Pandas read_html 生成带有元组列名的空 df
我想检索以下网站上的表格并将它们存储在 Pandas 数据框中:https://www.acf.hhs.gov/orr/resource/ffy-2012-13-state-of-colorado-o
python - 从 pd.read_html 获取数据后如何通过真实索引修复数据框中自动生成的索引
我无法找到如何正确索引我的数据框列我尝试了一些方法，但找不到合适的方法 import pandas as pd df = pd.read_html('sbi.html') data = df[1]
python - 如何使用 pd.read_html 从数据框中剥离列并将输出作为列表返回
我正在尝试使用 Pandas read_html 函数获取股票代码列表(而不是使用 Beautiful Soup 来抓取网络)。我引用的网站是: https://en.wikipedia.org/w
python - Pandas read_html 导致 TypeError
我正在使用 bs4 解析一个 html 页面并提取一个表，下面给出了示例表，我试图将它加载到 pandas 中，但是当我调用 pddataframe = pd.read_html(LOTable,sk
python - 如何连接 pandas.read_html 的结果列表
我可以使用下面的代码从一个 URL 打印/获取 CSV 数据框 import bs4 as bs import pandas as pd dfs = pd.read_html('http://www.
python - Pandas read_html() 在特定列上返回 'nan'
我正在使用 pandas 来抓取网站，但它返回的是一整列 'nan' 值，而不是正确的值。我尝试更改几个 read_html() 参数，例如 flavor、converters 和 na_values
python - Pandas read_html 给我权限被拒绝(403)
我注册通过提供商获取货币价格。当我使用 pd.read_html('URL') 时，出现 403 错误 - 权限被拒绝。所以我然后尝试通过这样做来模拟浏览器- import pandas as pd

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

html - 使用 pandas read_html 提取 href