regex - 使用正则表达式或漂亮的汤从 Instagram 抓取某人的网站-6ren

regex - 使用正则表达式或漂亮的汤从 Instagram 抓取某人的网站

转载作者：行者123 更新时间：2023-12-05 06:34:34

26

4

我想从他们的 Instagram 简介中获取某人的网站。 Instagram 将此网站隐藏在文本/javascript 标签中，因此我无法像通常使用 beautifulsoup 的 anchor 那样获取 url。这是包含我要捕获的内容的页面源代码片段:

...,"country_block":false,"external_url":"https://www.brittanyannecohen.com/pattern-control","blocked_by_viewer":false,...

我注意到我想要获取的链接总是附加到字典中的 external_url 属性(见下图)。

我试图通过使用正则表达式获取此 url 但它不起作用，请参见下面的代码

url=re.findall("[\"external_url\":]['https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+']",soup)

但我得到错误:

bad character range [-\w at position 31

最佳答案

你有一个方括号，你应该有一个圆括号:

url=re.findall("[\"external_url\":]['https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+']",soup)
url=re.findall("[\"external_url\":]('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+']",soup)
                                   ^--- change [ to (

线索在错误消息 bad character range [-\w 中，这意味着字符类早于该表达式开始。看前面我们发现 ['https?:...，这也没有意义，那就是问题出在哪里。

我不知道您的正则表达式是否真的有效 - 检查它太复杂了，尤其是当有更简单的方法时。

使用这个正则表达式

(?<="external_url":")[^"]+

整个匹配将成为您的目标 url。

参见 live regex demo .

关于regex - 使用正则表达式或漂亮的汤从 Instagram 抓取某人的网站，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50193879/

26

4

0

文章推荐： git clone 不工作并返回 403 http 错误

文章推荐： JAVA 在查找后使用 RandomAccessFile 非常慢。是什么原因？

文章推荐： python - 如何使用 Matplotlib 制作具有光环效果的散点图？

文章推荐： azure - 将 Azure 触发的 WebJob 超时设置为无限

instagram - (Instagram API) 获取该用户关注的 Instagram 用户列表
我想获取该用户所关注的 Instagram 用户列表。(但不是为我自己，为另一个用户)。我做 API 调用 GET https://api.instagram.com/v1/users/423423
instagram - 提供的access_token无效。 Instagram
我提到过这个问题Instagram API: The access_token provided is invalid ，在我自己发布这个问题之前。我的情况非常相似，我昨天刚刚注册了一个新应用程序，
instagram - Instagram 登录会被完全弃用吗？
Instagram 宣布弃用 Instagram 平台 API: “为了不断提高 Instagram 用户的隐私和安全，我们正在加速弃用 Instagram API 平台” 他们的文档和变更日志表示要
instagram - Instagram 用户名的字符限制
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 3 年前。 Improve
instagram - 您可以通过使用 Instagram ID 或用户名的 URL 在 Instagram 浏览器上打开直接消息吗？
我正在发送多条 Instagram 直接消息，并希望预先填充在我和我的关注者之间打开直接消息的 URL。我有每个粉丝的 Instagram ID 和用户名。目前，Instagram 的“收件箱”地址
instagram - Instagram API 限制和 Instagram 私有(private) api 之后的一些问题？
我正在做一个 Instagram 应用程序。首先想使用 Instagram 的端点。但是很多功能都被关闭了。用户搜索、关注者、关注列表等。 Instagram 宣布将于 7 月 31 日关闭许多 En
ios - 当我从我的应用程序将图像发布到 instagram 时，它会直接打开 Instagram 的过滤部分，但我希望它打开 Instagram 的裁剪部分？
- (IBAction)postToInstagram:(id)sender { NSURL *instagramURL = [NSURL URLWithString:@"instagram://ap
instagram - 是否可以从 Instagram 帐户检索指标？
我正在尝试创建一个程序，从 Instagram 帐户中检索喜欢、评论等的总数，不一定是评论的内容等，而只是给出特定帐户的喜欢和评论总数。这可能使用 Instagram API 吗？最佳答案所以我一
instagram - 如何计算 Instagram 媒体用户喜欢的数量？
目前我使用 /users/self/media/liked方法，获取响应，阅读 next_max_like_id并一次又一次地请求数据。我试图通过巨大的 count值，但看起来最大计数值只是 30 .
instagram - 如何从 Instagram 获取我最近的照片？
我阅读了 instargam API 并在谷歌中搜索了代码，但没有得到满足我要求的任何确切解决方案。我想像 Facebook 插件一样在我的网站上显示我最近的照片。我的图像看起来像 - 我尝试了以下
instagram - 在 Instagram 上获取用户的性别
我只是想知道是否有办法在 instagram 上获取用户的性别......我浏览了 instagram 的 api 并且从 users/userId 获得的用户信息不包括性别信息。谢谢你的帮助。最
instagram - 在我的网站中显示我的 Instagram 照片
假设我有一个 Instagram 帐户和一个网站。我想在网站上显示来自我的 Instagram 帐户的最新照片。我在文档中不清楚的东西:为了得到我的 access_token我需要验证自己的身份吗？我
instagram - 如何使用 Instagram graphql？
我正在使用以下查询https://www.instagram.com/graphql/query/?query_id=17851374694183129&id={acountId}&first=100
instagram - 无法在 Instagram 开发者页面上注册新客户端
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
instagram - 将范围添加到 Instagram 应用程序？
我试图让我的应用程序能够使用除基本权限之外的其他范围，但是当我尝试使用其他范围时，我收到以下错误: Something went wrong :(stdClass Object ( [meta] =>
instagram - Instagram 的隐私政策 URL
我正在尝试注册新 Client ID在 Instagram 上，用于提供 API。但是不知道怎么填Privacy Policy URL .请指导我。最佳答案这是格式 @ http://www.g
instagram - 如何在我的网站上显示我的 Instagram 提要？
我有一个显示我的 Instagram 动态的网站。以前我在用Instagram 遵循 API。用户/ self /媒体/最近此 API 使用我生成一次的访问 token ，并在我的代码中作为变量保存
instagram - 如何从 Instagram 上的多张照片帖子中检索所有图像
最近 Instagram 宣布支持多张照片发布。我尝试使用端点，GET /media/media-id ，但响应只有一张图像的信息。任何人都可以使用他们的 API 从单个多张照片帖子中检索所有图像
instagram - 检查 Instagram 帐户名称是否可用
我想检查 Instagram 用户名是否以“正确”的方式可用。目前我正在做的是打开想要的用户名他们的 instagram 页面并检查状态代码是否为 404。但这会带来一个问题，因为如果名称的前一个所有
instagram - 如何找到 Instagram 开发者支持？
我正在考虑使用 insta API 的项目，但是当我注册 instagramdeveloper 帐户时，我遇到了一些问题。我找不到创建新客户端的按钮，当我点击管理客户端按钮时，这就是我得到的: 当我点

首页

博学

6Ren·AI

商城

regex - 使用正则表达式或漂亮的汤从 Instagram 抓取某人的网站