python - 通过社交媒体管理网站上的原始 URL-6ren

python - 通过社交媒体管理网站上的原始 URL

转载作者：太空狗更新时间：2023-10-30 00:09:22

25

4

我正在将网络抓取作为学术项目的一部分，其中重要的是所有链接都被跟踪到实际内容。令人恼火的是，“社交媒体管理”网站存在一些重要的错误案例，用户在这些网站上发布他们的链接以检测谁点击了它们。

例如，考虑 this link on linkis.com ，它链接到 http://+ bit.ly +/1P1xh9J(由于 SO 发布限制，链接分开)，它又链接到 http://conservatives4palin.com .问题出现在 linkis.com 的原始链接中。不会自动重定向转发。相反，用户必须单击右上角的叉号才能转到原始 URL。

此外，似乎有不同的变体(参见例如 linkis.com link 2 ，十字位于网站的左下角)。这是我发现的仅有的两个变体，但可能还有更多。请注意，我使用的网络抓取工具与 this one 非常相似.连接到实际链接的功能不需要随着时间的推移保持稳定/正常运行，因为这是一个一次性的学术项目。

如何自动转到原始 URL？最好的方法是设计一个可以找到相关链接的正则表达式吗？

最佳答案

在许多情况下，您将不得不使用浏览器自动化来抓取使用 javascript 生成其内容的网页，抓取 get 请求返回的 html 不会产生您想要的结果，您有两个选择:

尝试绕过所有额外的 javascript 请求以获取您想要的内容，这可能非常耗时。
使用浏览器自动化，它可以让您打开一个真实的浏览器并自动执行其任务，为此您可以使用 Selenium。

多年来我一直在开发机器人和抓取工具，除非您请求的网页不严重依赖 javascript，否则您应该使用像 selenium 这样的东西。

下面是一些让您开始使用 selenium 的代码:

from selenium import webdriver

#Create a chrome browser instance, other drivers are also available
driver = webdriver.Chrome()     

#Request a page
driver.get('http://linkis.com/conservatives4palin.com/uGXam')

#Select elements on the page and trigger events
#Selenium supports also xpath and css selectors
#Clicks the tag with the given id
driver.find_elements_by_id('some_id').click()

关于python - 通过社交媒体管理网站上的原始 URL，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44658623/

25

4

0

文章推荐： c# - 从 asp.net/C# 查询 MUMPS

文章推荐： C# 列出目录中的文件问题

文章推荐： c# - Exception.Message 中的换行符

文章推荐： python - 使用 heapq 降序

html - 媒体=全部 vs 媒体=屏幕
似乎最近我看到越来越多的人开始在他们的样式表中使用 media="all" 而不是 media="screen"。我的问题是什么时候应该使用 media="all" 而不是 media="scree
instagram - 媒体 Instagram 端点不起作用 - 媒体 ID 无效
我正在尝试使用 https://www.instagram.com/developer/endpoints/media/ ，但对于我使用的每个媒体 ID，我总是得到相同的结果: { "meta
HTML/CSS @媒体
哟，我正在为服务器制作一个 MOTD 供最终用户阅读。但是，对于使用较小显示器的用户来说，它看起来非常压缩，例如，当分辨率为 1280x1040 时，它会被拉低。我不熟悉 CSS 中的 @media
CSS 媒体查询(@媒体)
我在我的 CSS 文件中使用了 @media screen 而不是 (-webkit-min-device-pixel-ratio:0)。我的问题是关于指定的值，即在这种情况下为“0”。值的变化将如何
机器人:媒体 Controller
我正在播放 Activity 中的视频，我需要显示/隐藏顶部栏 View 以及媒体 Controller 。所以当媒体 Controller 在屏幕上时，我的顶部 View 应该是可见的，当媒体 Co
小部件中的 Wordpress 媒体 uploader
我在我的 WordPress 主题中创建了一个小部件来显示图像。到目前为止，小部件可以工作，我可以输入值并在前端显示这些值。当我选择一个小部件并将其放入小部件区域时，媒体上传按钮不起作用。在 Wor
iphone - 标记内的MWFeedParser标记(媒体:缩略图)
我正在使用MWFeedParser从此处读取Youtube原子供稿:here xml代码: 我如何获取媒体的网址:缩略图？我试图更改MWFeedParser.m 由此: else if ([cu
Instagram API/媒体/搜索最大计数参数？
当使用 Python 向 Instagram API 发出 GET 请求时，传递所需的变量，如下所示 photos = api.media_search(lat=latitude, lng=longi
Android 媒体 Controller 在失去焦点时隐藏
我正在使用与媒体播放器关联的媒体 Controller 来播放声音。问题是媒体 Controller 一旦失去焦点就会隐藏起来。我有一个按钮，按下时会播放声音，媒体 Controller 会出现在屏幕
android - 媒体 Controller 隐藏但媒体播放器继续播放
我有一个媒体播放器并与它关联了一个媒体 Controller 。控件工作正常。我遇到了两个问题: 当媒体 Controller 获得焦点时，即用户触摸它然后触摸屏幕的另一部分时，媒体 Control
java - 媒体 Controller 不工作
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and th
对话框中的 Android 媒体 Controller
我在对话框中显示一个 VideoView 并向其附加一个媒体控件。但是当我尝试点击媒体控件(播放、搜索栏等)时，对话框会消失。媒体控制按钮不会被点击，而是将点击注册为 Dialog 的 Outsi
html - 打印时隐藏 HTML 媒体
我目前正在使用 HTML 编写可打印文档，它将显示从数据库中提取的数据。我的想法是我将使用 HTML/CSS 使文档看起来不错，但它将专门用于打印。文档的布局使用表格来控制数据库中数据的显示方式。
css - 媒体 ="print"外部链接不起作用
我需要在网络应用程序中打印我的报告。我有在我的代码中。但它不应用任何样式。另一方面，如果我使用在文档中编写 print.css 代码一切正常。怎么了？最佳答案也许你在主样式之前插入打印样式
jquery - css 媒体 - 屏幕宽度不一致
CSS html{ overflow-y:scroll; } js function showW(){ var a=($(window).width()); $('#
css - 媒体 ="all"CSS 是否会覆盖所有内容？
我编写了一个 Chrome 扩展程序，其中一个功能是您可以在您所在的页面中调出一个帮助面板，其中包含其使用指南。这个帮助面板是通过JS插入到页面中的，它的CSS都是通过$('#selector_for
linux - 模拟 WORM 媒体
我需要为 WORM 媒体开发归档软件。这种类型的媒体允许通常的访问操作:读取、写入，但文件一旦写入，就无法修改或删除。因为这样的媒体可能很昂贵，我想知道如何在开发阶段为测试创建一个假的 WORM
Android 媒体 Controller 短时间显示
下面的这个 Activity 工作正常，但 mediaController 仅在我单击屏幕时显示。第二个问题是媒体 Controller 只显示 3 秒。我应该怎么做才能消除这个问题？ public
android - 媒体 Controller 定位
我正在使用 VideoView 播放本地 mp4，我也在使用 MediaController。媒体控制栏未显示在我的视频剪辑下方，而是显示在屏幕中间。我使用 setAnchorView 将其附加到我的
android - 媒体 Controller 不工作
我的布局包含 videoView 还有java代码中的Medicontrolleri: final MediaController mediaCont

首页

博学

6Ren·AI

商城

python - 通过社交媒体管理网站上的原始 URL