gpt4 book ai didi

python - 通过社交媒体管理网站上的原始 URL

转载 作者:太空狗 更新时间:2023-10-30 00:09:22 25 4
gpt4 key购买 nike

我正在将网络抓取作为学术项目的一部分,其中重要的是所有链接都被跟踪到实际内容。令人恼火的是,“社交媒体管理”网站存在一些重要的错误案例,用户在这些网站上发布他们的链接以检测谁点击了它们。

例如,考虑 this link on linkis.com ,它链接到 http://+ bit.ly +/1P1xh9J(由于 SO 发布限制,链接分开),它又链接到 http://conservatives4palin.com .问题出现在 linkis.com 的原始链接中。不会自动重定向转发。相反,用户必须单击右上角的叉号才能转到原始 URL。

此外,似乎有不同的变体(参见例如 linkis.com link 2 ,十字位于网站的左下角)。这是我发现的仅有的两个变体,但可能还有更多。请注意,我使用的网络抓取工具与 this one 非常相似.连接到实际链接的功能不需要随着时间的推移保持稳定/正常运行,因为这是一个一次性的学术项目。

如何自动转到原始 URL?最好的方法是设计一个可以找到相关链接的正则表达式吗?

最佳答案

在许多情况下,您将不得不使用浏览器自动化来抓取使用 javascript 生成其内容的网页,抓取 get 请求返回的 html 不会产生您想要的结果,您有两个选择:

  • 尝试绕过所有额外的 javascript 请求以获取您想要的内容,这可能非常耗时。
  • 使用浏览器自动化,它可以让您打开一个真实的浏览器并自动执行其任务,为此您可以使用 Selenium

多年来我一直在开发机器人和抓取工具,除非您请求的网页不严重依赖 javascript,否则您应该使用像 selenium 这样的东西。

下面是一些让您开始使用 selenium 的代码:

from selenium import webdriver

#Create a chrome browser instance, other drivers are also available
driver = webdriver.Chrome()

#Request a page
driver.get('http://linkis.com/conservatives4palin.com/uGXam')

#Select elements on the page and trigger events
#Selenium supports also xpath and css selectors
#Clicks the tag with the given id
driver.find_elements_by_id('some_id').click()

关于python - 通过社交媒体管理网站上的原始 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44658623/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com