python - 如何抓取受密码保护的网站-6ren

python - 如何抓取受密码保护的网站

转载作者：行者123 更新时间：2023-12-01 07:49:55

27

4

我在抓取受密码保护的网站时遇到困难。我知道有很多问题，但是没有一个能解决我的问题。

问题是，我不知道问题是什么。我确实从他们的服务器收到了 200 响应，但是，这不是我期望的内容。它确实是一个很大的 HTML 结构，但是有诸如“access”、“RequestURLDenied”、“Password”、“Help”、“Sign in”之类的单词，这表明我的登录尝试无法正常工作。但我不知道要改变什么？有人有抓取经验吗？

这是我到目前为止的代码(摘自 here ):

import requests
from lxml import html

USERNAME = "XXX"
PASSWORD = "XXX"
LOGIN_URL = "https://signin.lexisnexis.com/lnaccess/app/signin?back=https%3A%2F%2Fadvance.lexis.com%3A443%2Fnexis-uni%2Flaapi%2Fpermalink%2F35a8b8d7-925d-4219-b89d-af27c10a7a31%2F%3Fcontext%3D1516831&aci=nu"
LOGIN_URL2 = "https://signin.lexisnexis.com:443/lnaccess/Transition?aci=nu"
URL = "https://advance.lexis.com/api/document?collection=news&id=urn:contentItem:7XM6-WXH0-Y9M6-H1V0-00000-00&context=1516831"

def main():
    # Create session
    session = requests.session()

    # Get login cookies
    session.get(LOGIN_URL)

    # Create payload - used to log into password protected area
    login_data = {
        "rmtoken": "dummy", 
        "request_id": "null", 
        "OAM_REQ": "null", 
        "userid": USERNAME,
        "password": PASSWORD,  
        "rmflag": "0", 
        "aci": "nu"
    }

    # Perform login
    session.post(LOGIN_URL, data = login_data)

    # Scrape url
    result = session.get(URL)

    # Content
    print(result.content)


if __name__ == '__main__':
    main()

这是我运行脚本时的响应:

另一个问题:假设我已经可以从代码登录，并且执行了数千个服务器请求来提取文本，这是否会导致他们的服务器出现问题:D？

最佳答案

总而言之，您的代码看起来是正确的，您只是在向其发送 POST 请求的 URL 上犯了一些错误，并且您使用的负载不完整。

尝试以下代码:

import requests
from lxml import html
from lxml.etree import tostring

USERNAME = "XXX"
PASSWORD = "XXX"
LOGIN_URL = "https://signin.lexisnexis.com/lnaccess/app/signin?back=https%3A%2F%2Fadvance.lexis.com%3A443%2Fnexis-uni%2Flaapi%2Fpermalink%2F35a8b8d7-925d-4219-b89d-af27c10a7a31%2F%3Fcontext%3D1516831&aci=nu"
URL = "https://advance.lexis.com/api/document?collection=news&id=urn:contentItem:7XM6-WXH0-Y9M6-H1V0-00000-00&context=1516831"

def main():
    session_requests = requests.session()

    # Get login cookies
    session_requests.get(LOGIN_URL)

    # Create payload - used to log into password protected are
    payload = {
        "rmtoken": "dummy", 
        "request_id": "null", 
        "OAM_REQ": "null", 
        "userid": USERNAME,
        "password": PASSWORD,  
        "rmflag": "0", 
        "aci": "nu"
    }

    # Perform login
    result = session_requests.post("https://signin.lexisnexis.com:443/lnaccess/Transition?aci=nu", data = payload)

    # Scrape url
    result = session_requests.get(URL)
    tree = html.fromstring(result.content)
    # bucket_names = tree.xpath("//div[@class='repo-list--repo']/a/text()")

    print(tostring(tree))

if __name__ == '__main__':
    main()

希望这有帮助

关于python - 如何抓取受密码保护的网站，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56289061/

27

4

0

文章推荐： xcode - 在 mac 应用程序的 NSTableView 中实现复选框

文章推荐： project-management - 项目转移

文章推荐： directx - DirectSound 是 Windows 的最佳音频抽象层吗？

python - 为 CustomUser 指定的未知字段(密码 1、密码 2)
Internal Server Error: /admin/account/customuser/add/ Traceback (most recent call last): File "C:\
php - 我的 php 脚本没有使用给定的用户名/密码/主机，而是使用 root@localhost(密码 : NO)
有问题!虽然我发现几乎相似的线程但没有帮助:( 我编写了一个 php 脚本来从我的 MySQL 数据库中获取注册用户的数量。该脚本在我的本地主机上运行良好；它使用给定的用户名、密码和主机名，分别是“r
密码、文本换行
我正在做一项基于密码的作业，我将 key 和消息放在单独的数组中。我想创建第三个数组，其中包含围绕消息大小的 key ，如下所示: message keykeyk 我已经在这个问题上苦苦挣扎了一段时间
安卓图形登录/密码
我的几个客户要求我实现图形密码检查器，例如关于如何实现这种 UI 有什么想法吗？最佳答案试着看看这个:https://code.google.com/p/android-lockpattern/
phpMyAdmin:密码？
我正在使用 MAMP，每次登录 phpMyAdmin 时，都会收到以下错误/警告消息: the configuration file now needs a secret passphrase (bl
windbg - WDKRemoteUser 密码 ?
我正在尝试通过将 Visual Studio 2013 连接到我的测试机来调试 WDF 驱动程序。它创建一个名为 WDKRemoteUser 的用户，并在进行测试时尝试自动登录。有人知道这个用户的密码
ubuntu - SVN停止询问用户名+密码
使用具有指定用户名和密码的 SVN 提交。我希望服务器抛出错误；所以我可以告诉我的用户他/她的密码错误。相反，在使用错误密码提交后: svn commit "test_file.txt" --use
neo4j - 我如何找到neo4j 密码？
我正在尝试实现 friend 推荐。它从节点“你”开始。而且，我想找到节点“安娜”。换句话说，这是我的两个或更多 friend 共同认识的人。上面的示例节点是 Anna。如果您的帮助，我将不胜感
passwords - wget为什么不接受我的用户名/密码？
我都尝试过 wget --user=myuser --password=mypassword myfile 和 wget --ftp-user=myuser --ftp-password=mypass
Firefox 自动填充用户名/密码
我的一位用户提示说，每当他尝试使用默认管理界面(Django 的管理员)添加新用户(auth.User)时，新用户名和密码都会自动填充他自己的。问题是他在登录时要求 Firefox 记住他的用户名/
iphone - 在应用程序购买沙箱中不提示我输入登录/密码
我们正在开发一款应用(当然)用于应用购买 (IAP)。我已完成指南中的所有操作以启用 iap，并且一切正常，直到我想要购买为止。部分代码: MainViewController.m -(vo
neo4j - neo4j 密码
我试图创建两个可选匹配项的并集(如下所示)，但我得到的不是并集，而是两者的交集。我应该如何更改此查询以获得所需的联合？ optional match (a:PA)-[r2:network*2]-(b:
ssh - 如何在Ansible命令中传递用户名/密码
我想将Ansible用作另一个Python软件的一部分。在该软件中，我有一个包含其用户名/密码的主机列表。有没有一种方法可以将SSH连接的用户/密码传递给Ansible ad-hoc命令或以加密方式
apache - 使用htaccess在Xampp上出现错误500(密码)
嗨，我在使用xampp的Apache Web服务器上收到错误500。直到我使用.htaccess，.htpasswd文件，错误才出现。我搜索了，但找不到语法错误。我只有1张图片和要保护的索引文件。以下
Laravel 密码 & 密码_确认验证
我一直使用它来编辑用户帐户信息: $this->validate($request, [ 'password' => 'min:6', 'password_confirmation'
.net - 使用InstallUtil并静默设置Windows服务登录用户名/密码
我需要使用InstallUtil来安装C# Windows服务。我需要设置服务登录凭据(用户名和密码)。这一切都需要默默地完成。有没有办法做这样的事情: installutil.exe myserv
forms - 浏览器如何决定哪些表单字段是用户名/密码？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎不是关于 a specific programming problem, a software
php - 密码、盐和授权
如果我有一个随机的、16 个字符长的字母数字盐(不同大小写)，它是为每个用户生成和存储的，我是否还需要一个站点范围的盐？换句话说，这样好吗？ sha1($user_salt . $password)
java - 存储用户创建的帐户的用户/密码？
我正在开发一个空白程序，该程序将允许用户创建一个帐户，以便他们可以存储其余额和提款/存款。用户输入用户名和密码后，如何存储这些信息以便用户可以登录并查看其余额？我不一定要尝试使其非常安全，我只是希望能
Neo4j 密码 - 搜索节点之间没有路径
我正在尝试寻找一种通用方法来搜索没有链接到另一个节点或节点集的节点或节点集。例如，我能够找到特定类型(例如 :Style)的所有节点，这些节点以某种方式连接到一组特定的节点(例如 :MetadataR

首页

博学

6Ren·AI

商城

python - 如何抓取受密码保护的网站