gpt4 book ai didi

python - 如何使用python和 Mechanize 从php页面获取所有链接

转载 作者:行者123 更新时间:2023-12-04 16:20:06 24 4
gpt4 key购买 nike

我想从网页中提取所有链接。到目前为止,这是我的代码。

import mechanize
import lxml.html
from time import sleep

links = list()
visited_links = list()

br = mechanize.Browser()

def findLinks(url):
response = br.open(url)
visited_links.append(response.geturl())

for link in br.links():
response = br.follow_link(link)
links.append(response.geturl())
sleep(1)


findLinks("http://temelelektronik.net")

for link in links:
if link in visited_links:
links.remove(link)
else:
findLinks(link)
print link

for link in visited_links:
print link

事实上,我不想写一个网络爬虫。我想做的是从网页中提取所有链接并创建站点地图。我还想知道是否可以使用 mechanize 和 python 从服务器获取文件的最后修改时间。

我想问的是,这段代码片段在 HTML 页面上运行良好。它不会从 php 页面中提取链接。例如 this page .如何从php页面中提取链接?

任何帮助,将不胜感激。谢谢..

最佳答案

我不懂机械,但我用过 pattern.web模块,它有一个易于使用的 HTML DOM 解析器。我认为站点地图与您要查找的内容类似:

from pattern.web import URL, DOM

url = URL("http://temelelektronik.net")
dom = DOM(url.download())
for anchor in dom.by_tag('a'):
print(anchor.href)

关于python - 如何使用python和 Mechanize 从php页面获取所有链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14793271/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com