gpt4 book ai didi

python - 从代码中获取所有 href

转载 作者:太空宇宙 更新时间:2023-11-04 08:19:18 25 4
gpt4 key购买 nike

我正在制作网络爬虫。为了找到页面中的链接,我在 selenium 中使用了 xpath

driver = webdriver.Firefox()
driver.get(side)
Listlinker = driver.find_elements_by_xpath("//a")

这很好用。然而,在测试爬虫时,我发现并非所有链接都在 a 标签下。 href 有时也用在 area 或 div 标签中。

现在我坚持

driver = webdriver.Firefox()
driver.get(side)
Listlinkera = driver.find_elements_by_xpath("//a")
Listlinkerdiv = driver.find_elements_by_xpath("//div")
Listlinkerarea = driver.find_elements_by_xpath("//area")

这确实将爬网放入了网络爬虫中。

我已经尝试过 xpath "//@href",但这不起作用。我还尝试了几种方法来以有效的方式获取所有 href url,都使用漂亮的汤和 lxml,但到目前为止,无济于事。很抱歉,我没有任何代码可以展示我在漂亮的汤和 lxml 上所做的努力,但由于这些被证明是无用的,所以我删除了它们,我知道这不是最明智的做法。我现在已经开始保存这些不成功的尝试,为了我自己,如果我想再试一次,想知道第一次出了什么问题

如果我能在这方面得到任何帮助,我将不胜感激。

最佳答案

试试这个:

ListlinkerHref = driver.find_elements_by_xpath("//*[@href]")

关于python - 从代码中获取所有 href,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8572540/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com