python - 如何绕过机器人检测并使用 python 抓取网站-6ren

python - 如何绕过机器人检测并使用 python 抓取网站

转载作者：行者123 更新时间：2023-12-04 16:27:10

24

4

问题
我是网络抓取的新手，我试图创建一个抓取器，它查看播放列表链接并获取音乐和作者的列表。
但是该站点一直拒绝我的连接，因为它认为我是一个机器人，所以我使用 UserAgent 创建了一个假的 useragent 字符串来尝试绕过过滤器。
它有点奏效？但是问题是当你通过浏览器访问网站时，你可以看到播放列表的内容，但是当你尝试使用请求提取html代码时，播放列表的内容只是一个很大的空白。
Mabye 我必须等待页面加载？或者有更强大的机器人过滤器？
我的代码

import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent

ua = UserAgent()

melon_site="http://kko.to/IU8zwNmjM"

headers = {'User-Agent' : ua.random}
result = requests.get(melon_site, headers = headers)


print(result.status_code)
src = result.content
soup = BeautifulSoup(src,'html.parser')
print(soup)

网站链接
playlist link
我在使用请求时得到的 html
html with blank space where the playlist was supposed to be

最佳答案

你想看看this link获取您想要抓取的内容。

以下尝试应该为您获取艺术家姓名和他们的歌曲名称。

import requests
from bs4 import BeautifulSoup

url = 'https://www.melon.com/mymusic/playlist/mymusicplaylistview_listSong.htm?plylstSeq=473505374'

r = requests.get(url,headers={"User-Agent":"Mozilla/5.0"})
soup = BeautifulSoup(r.text,"html.parser")
for item in soup.select("tr:has(#artistName)"):
    artist_name = item.select_one("#artistName > a[href*='goArtistDetail']")['title']
    song = item.select_one("a[href*='playSong']")['title']
    print(artist_name,song)

输出如下:

Martin Garrix - 페이지 이동 Used To Love (feat. Dean Lewis) 재생 - 새 창
Post Malone - 페이지 이동 Circles 재생 - 새 창
Marshmello - 페이지 이동 Here With Me 재생 - 새 창
Coldplay - 페이지 이동 Cry Cry Cry 재생 - 새 창

注意:您的 BeautifulSoup版本应该是 4.7.0或稍后以便脚本支持伪选择器。

关于python - 如何绕过机器人检测并使用 python 抓取网站，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61400692/

24

4

0

文章推荐： reactjs - 如何每 X 秒刷新一次 React-Admin 列表数据？

文章推荐： ssh - SELinux 使用 RSA key 阻止 ssh

文章推荐： combobox - PyQT4 : Adding combobox in Qtableview

文章推荐： javascript - 哪些内存库可用于 Javascript？

java - 机器人 DialogFragment 机器人 :onClick ="buttonCancel" causes IllegalStateException could not find a method
我的对话 fragment 有问题。我想使用 android:onClick 属性，因为在我看来代码更清晰。在我的布局中，我有以下声明: 现在我的 DialogFragment import an
机器人:实现谷歌地图
我正在制作一个使用谷歌地图的应用程序，我的主要 xml 代码 fragment 如下: 我的java代码是: import android.os.Bundle; import com.googl
机器人:首选项
是否可以在一个应用程序中有两个单独的首选项？我有一个在运行时连接到外部可执行文件(引擎)的应用程序。应用程序有自己的偏好，引擎也有。这两者不能混用，因为下次用户可能会决定加载具有不同偏好的完全不同的引
机器人:重叠图像？
这是“Google Catalogs”应用程序的快照。我只是想知道我们如何进行这种图像重叠。![enter image description here][1] 最佳答案您可以使用 FrameLay
机器人: GridView
我制作了一个 GridView ，其中添加了图像。但我的问题是它显示的 gridview 尺寸非常小，其中只有 3 张图像，就像图片中那样，我想在其中显示 9 张图像。小号但我希望 gridvie
机器人:启用和服务
我目前正在学习如何在 Android 上创建和使用服务。我查看了 android SDK 以获得进一步的帮助，我发现了 android:enable=[true |假]。在SDK中是这样说的: Th
机器人:最终得分和高分
在完成我的 Android 游戏时，我希望用户将他/她的分数与高分进行比较。为此，我将当前的最高分存储在 SQLite 数据库中。但我认为我的方法(似乎可行)笨拙且丑陋: //in the final
机器人:默认声音
出于某种原因，谷歌没有为模拟器提供任何通知声音，我找不到任何关于如何加载通知声音的引用。我遇到过这个线程:How to play ringtone/alarm sound in Android但是除
机器人:windowLightStatusBar 真不工作
我的应用有以下样式: true #ffffff true 它在我使用的大多数手机上运行良好。 (LG G5、Nexus 5、Moto G)但是当我在 LeEco Pro
automation - 如何确保我的网站可以阻止自动化脚本、机器人？
我想确保我的网站阻止 Selenium 和 QTP 等自动化工具。有没有办法做到这一点？网站上的哪些设置会导致 Selenium 失败？最佳答案适当考虑对原始问题“你到底为什么要这样做？”的评论
javascript - 机器人/垃圾邮件机器人是否具有选择单选按钮的能力？
我正在处理我的联系表，我希望它尽可能地防止垃圾邮件。我正在使用一些方法作为反击: 使用 JavaScript 正则表达式验证电子邮件的合法性验证所有字段是否具有足够的值制作一个不可见的字段来吸引机
javascript - 机器人-检测JavaScript事件
It's difficult to tell what is being asked here. This question is ambiguous, vague, incomplete, over
机器人 :images not being displayed
我正在制作一个 android 应用程序，我需要在我的应用程序中显示远程图像我使用以下代码。但图像未显示: for(int i=0;i
Android AIML 机器人？
我有几个与 Android 操作系统中的 AIML 集成相关的问题。我对 Java 了解不多，但我对 AIML 了解很多。我制作了 AIML 文件，现在我想做的是制作一个可以加载文件并在 GUI 中运
机器人 "close" Activity
我有一个具有“登录”和“注销”操作的应用程序。用户登录后，在他们注销时堆栈中可能还剩下任意数量的 Activity 。当用户注销时，我希望重置所有应用程序状态。我清除了我的磁盘缓存和首选项，但在运行
java - 机器人:强制关闭
我是 Android 应用程序开发的新手，我正在尝试开发一个可用的应用程序。但是我创建的这个页面自创建以来就出现了问题，我真的希望有人能帮助我解决这个问题。每次我运行这个程序时，应用程序都会关闭。这
机器人:imeOptions。按钮不显示
我尝试将 android:imeOptions 设置为 actionSend、actionSearch。但是键盘上没有“发送”或“搜索”按钮，只有普通的“Enter”键。我还尝试设置不同的输入类型。
机器人 map - 检查中心相机是否在边界内
我想创建一种方法来查看相机坐标的中心是否在某个区域的边界内，如果是，则执行一些操作。当我尝试这样做时，出现错误:Operator !不能应用于 LatLngBounds。我也试过 if(temp
android - EXTRA_DURATION_LIMIT 机器人
我正在尝试将视频录制时长限制为 5 秒。我正在使用默认相机和此代码: intent.putExtra(MediaStore.EXTRA_DURATION_LIMIT, 5); 现在它在三星 S6 上工
机器人(异常 ActityNotFoundException)
我正在开发一款安卓游戏 https://code.google.com/p/something-soft/我的日志猫说它正试图激发游戏的 Intent ，但随后主线程似乎死了(出现 ActivityN

首页

博学

6Ren·AI

商城

python - 如何绕过机器人检测并使用 python 抓取网站