gpt4 book ai didi

Python3 刮刀。直到最后才解析 xpath

转载 作者:行者123 更新时间:2023-12-01 03:59:02 25 4
gpt4 key购买 nike

我正在使用lxml.html模块

from lxml import html   

page = html.parse('http://directory.ccnecommunity.org/reports/rptAccreditedPrograms_New.asp?sort=institution')

# print(page.content)

unis = page.xpath('//tr/td[@valign="top" and @style="width: 50%;padding-right:15px"]/h3/text()')

print(unis.__len__())

with open('workfile.txt', 'w') as f:
for uni in unis:
f.write(uni + '\n')

这里的网站( http://directory.ccnecommunity.org/reports/rptAccreditedPrograms_New.asp?sort=institution#Z )充满了大学。

问题在于它解析到字母“H”(244 个unis)。我不明白为什么,因为我看到它解析所有 HTML 直到最后。

我还记录了我自己,244 不是 python3 中列表或任何内容的限制。

最佳答案

那个 HTML 页面根本就不是 HTML,它完全被破坏了。但以下将做你想做的。它使用 BeautifulSoup解析器。

from lxml.html.soupparser import parse
import urllib

url = 'http://directory.ccnecommunity.org/reports/rptAccreditedPrograms_New.asp?sort=institution'
page = parse(urllib.request.urlopen(url))
unis = page.xpath('//tr/td[@valign="top" and @style="width: 50%;padding-right:15px"]/h3/text()')

参见http://lxml.de/lxmlhtml.html#really-broken-pages了解更多信息。

关于Python3 刮刀。直到最后才解析 xpath,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36924654/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com