gpt4 book ai didi

python - Beautiful Soup 没有 'get' 完整网页

转载 作者:太空宇宙 更新时间:2023-11-04 10:30:37 25 4
gpt4 key购买 nike

我正在使用 BeautifulSoup 解析来自 this page 的一堆链接但它并没有提取我想要的所有链接。为了找出原因,我将 html 下载到“web_page.html”并运行

soup = BeautifulSoup(open("web_page.html"))
print soup.get_text()

我注意到它不会打印整个网页。它在布拉克利结束。我查看了 html 代码,看看“布拉克利”是否发生了一些奇怪的事情,但我找不到任何东西。另外,如果我将另一个链接移动到 Brackley 的位置,它将打印那个而不是 Brackley。好像它只会读取一定大小的 html 文件?

最佳答案

不确定您是如何获得页面和链接的,这是我所做的并获得了从“加拿大”开始并以“Taloyoak,HAM”结束的所有链接:

from bs4 import BeautifulSoup
import requests

url = 'http://www12.statcan.gc.ca/census-recensement/2006/dp-pd/tbt/Geo-index-eng.cfm?TABID=5&LANG=E&APATH=3&DETAIL=0&DIM=0&FL=A&FREE=0&GC=0&GID=0&GK=0&GRP=1&PID=99015&PRID=0&PTYPE=88971,97154&S=0&SHOWALL=0&SUB=0&Temporal=2006&THEME=70&VID=0&VNAMEE=&VNAMEF=&D1=0&D2=0&D3=0&D4=0&D5=0&D6=0'
response = requests.get(url)

soup = BeautifulSoup(response.content)
print [a.text for a in soup.select('div.span-8 ol li a')]

打印:

[
u'Canada',
u'Newfoundland and Labrador / Terre-Neuve-et-Labrador',
...
u'Gjoa Haven, HAM',
u'Taloyoak, HAM'
]

仅供引用,div.span-8 ol li aCSS Selector .

关于python - Beautiful Soup 没有 'get' 完整网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26913316/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com