python - 用 BeautifulSoup 刮表-6ren

python - 用 BeautifulSoup 刮表

转载作者：行者123 更新时间：2023-11-30 23:00:51

25

4

在第一个代码中，我可以使用 BS 来获取感兴趣的表中的所有信息:

from urllib import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/page3.html")
soup = BeautifulSoup(html)

for i in soup.find("table",{"id":"giftList"}).children:
    print child

打印产品列表。

我想打印tournamentTable中的行here (所需信息位于 class=deactivate、class=odd deactivate 中，日期位于 class=center nob-border 中):

from urllib import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://www.oddsportal.com/hockey/russia/khl/results/#/page/2.html")
soup = BeautifulSoup(html)

#for i in soup.find("table",{"id":"tournamentTable"}).children:
#    print i
for i in soup.find("table",{"class":"table-main"}).children:
    print i

但那是在页面上打印其他表格。当我尝试使用 {"id":"tournamentTable"} 指定感兴趣的表格时，它返回 Nonetype。

我错过了什么，无法访问所需的表格及其中的信息？

最佳答案

当urllib.urlopen返回网页内容时，它会从关闭JavaScript的URL返回HTML。。就您而言，这意味着当 urllib 加载相关 URL 时，带有 id="tournamentTable" 的表格实际上从未加载。

您可以通过在浏览器中关闭 JavaScript 并加载 URL 来观察此行为。

要抓取由 JavaScript 呈现的内容的网页，您可能需要考虑使用浏览器自动化包，例如 Selenium。如果您定期抓取，您可能还需要下载一个“JavaScript 切换器”插件，它可以让您轻松打开和关闭 JavaScript。

关于python - 用 BeautifulSoup 刮表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35119529/

25

4

0

文章推荐： python - 如何根据用户输入更改 Django 查询查找

文章推荐： python - Tfidvectorizer - L2 归一化向量

文章推荐： c# - 使用 ReadOnlySpan 处理转义序列

文章推荐： python - 在对 python 中的值进行四舍五入时遇到问题

php - 刮 Goutte 并等待满载
我尝试通过 Goutte 列表从流行的拍卖网络服务中抓取，但它们的部分代码是由 javascript 呈现的，问题是 Goutte 只返回没有 JS 作业的 DOM。因此，如果 symphony 是
python-3.x - BeautifulSoup 刮
我遇到了旧的工作代码无法正常运行的问题。我的 python 代码正在使用漂亮的汤抓取网站并提取事件数据(日期、事件、链接)。我的代码正在提取位于 tbody 中的所有事件.每个事件都存储在中.
python - 努力使用 Selenium 刮 table
所以我期待着对这个 link 中出现的表格进行抓取. 为了抓取，我决定使用 Selenium 。在我的第一次尝试中，我所做的是: driver = webdriver.Chrome(ChromeDr
python - 努力使用 Selenium 刮 table
所以我期待着对这个 link 中出现的表格进行抓取. 为了抓取，我决定使用 Selenium 。在我的第一次尝试中，我所做的是: driver = webdriver.Chrome(ChromeDr
python - Selenium 刮 : changing timezone
我通过 Selenium 运行 headless (PhantomJS) 浏览器的网站有不同的时区，所以我得到了很多条目的错误日期。因此，我抓取的结果显示了错误的日期/时间(我在美国东部时间，看起来网
python - BeautifulSoup - python - table 刮
尝试使用 beautiful soup 从网站上抓取表格以解析数据。我将如何通过它的标题来解析它？到目前为止，我什至无法打印整个表格。提前致谢。代码如下: import urllib2 from b
python - "Permission Denied"错误废墟 Selenium 刮
我一直在使用 Selenium(Python Webdriver)抓取一个网站。当我尝试将它作为 click() 选项时，我收到了权限被拒绝的错误。完整堆栈跟踪: Traceback (most re
python - 用漂亮的汤和 Pandas 刮 table 时如何保留链接
使用 Beautiful soup 和 Pandas 抓取网页以获取表格。其中一列有一些网址。当我将 html 传递给 pandas 时，href 丢失了。有没有办法只为该列保留 url 链接？示
python - BeautifulSoup 刮 table 与 table 休息
我正在尝试抓取 table进入数据框。我的尝试仅返回表名称，而不返回每个区域的行内的数据。这是我到目前为止所拥有的: from bs4 import BeautifulSoup as bs4 imp

首页

博学

6Ren·AI

商城

python - 用 BeautifulSoup 刮表