gpt4 book ai didi

python - 使用 Python 和 Beautiful Soup 获取非直接网页上的文本

转载 作者:太空宇宙 更新时间:2023-11-03 18:43:05 25 4
gpt4 key购买 nike

我正在尝试执行以下操作:

  1. 拾取页面上的文本(与浏览器打开时不同)
  2. 处理多个页面

情况是这样的:

我正在尝试使用 Python 和 Beautifulsoup 来获取荷兰语列表公司网站http://www.fenex.nl .

我尝试了以下按键,但没有一个成功。

soup.find_all('span')
soup.find_all('a')
soup.find_all('td')
soup.find_all('tr')
soup.find_all("tr",{"class":"even"})

然后我从主页找到“Vind een expediteur”选项卡,然后选择“Toon”alle leden”,会跳转到 this member page 。但实际上直接输入这个网址,并不会进入成员(member)列表页面。

那么我怎样才能获取成员列表呢?

另一个非常重要的问题是:页面持续到45页,也许将来会发生变化。我怎样才能让 Python 代码知道逐页选择它们?

最佳答案

您也许可以尝试为页面创建一些机器人。 BeautifulSoap 是一个用于轻松解析 html 文本的库,仅此而已。如果您想逐页浏览,则必须使用 urllib 编写。这是一个简单的例子:

import urllib
from BeautifulSoup import *

url = "http://www.domain.com/page/path?page="
count_of_pages = 10

for page in xrange(1, count_of_pages):
response = urllib.urlopen("%s%d" % (url, page))
webPage = BeautifulSoup(webFile.read())

# Parse page with great module BeaurifulSoap

但是这段代码可以帮助您正常加载页面。该页面从 AJAX 获取数据。查看此页面:

http://www.fenex.nl/CMS/asynchronousrendering/CrmSearchResultFenexMemberCompanies/CrmSearchResultFenexMemberCompaniesByMemberCriteriaRenderControl.aspx?_=1384960662265&cid=9&pageNr=1&fenexSearchId=-214748364

如果您使用chorme,您可以按Ctrl + Shift + J,打开选项卡Network并重新加载页面。您可以看到所有请求,并且在此列表中您可以找到包含数据的正确网址。

关于python - 使用 Python 和 Beautiful Soup 获取非直接网页上的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20098396/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com