gpt4 book ai didi

python - 在 Python 中抓取 HTML

转载 作者:行者123 更新时间:2023-11-28 22:00:36 26 4
gpt4 key购买 nike

我试图从页面源中找到一系列 URL(twitter 链接),然后将它们放入文本文档的列表中。我遇到的问题是,一旦我 .readlines() urlopen 对象,我总共有 3-4 行,每行由我需要一个接一个收集的几十个 url 组成。这是我尝试纠正此问题的代码片段:

page = html.readlines()
for line in page:
ind_start = line.find('twitter')
ind_end = line.find('</a>', ind_start+1)
while ('twitter' in line[ind_start:ind_end]):
output.write(line[ind_start:ind_end] + "\n")
ind_start = line.find('twitter', ind_start)
ind_end = line.find('</a>', ind_start + 1)

不幸的是,我无法使用它提取任何网址。有什么建议吗?

最佳答案

您可以使用 提取链接和一个 表达:

from lxml.html import parse

p = parse('http://domain.tld/path')
for link in p.xpath('.//a/@href'):
if "twitter" in link:
print link, "match 'twitter'"

使用 在那里,没有更好的方法:解析 HTML 是 2013 年解决的问题。参见 RegEx match open tags except XHTML self-contained tags

关于python - 在 Python 中抓取 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14552046/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com