python - 是 Python 请求在这里做错了什么，还是我的 POST 请求缺少什么？-6ren

python - 是 Python 请求在这里做错了什么，还是我的 POST 请求缺少什么？

转载作者：行者123 更新时间：2023-11-28 22:52:00

我目前正在编写一个程序，帮助用户确定在 tumblr 上发帖的最佳时间。与 Twitter 一样，大多数关注者都有如此多的订阅，以至于他们无法跟上，这意味着最好知道自己的特定关注者何时(大部分)在线。在 tumblr 上，这可以通过两种方式确定——首先，他们最近是否分享了最近发布的任何内容，其次，他们最近是否添加到他们喜欢的帖子列表中。

令人沮丧的是，即使设置为“公开”，任意用户(除了自己)的喜欢的帖子流也只对登录实体可用。据我所知，这意味着我必须时不时地向应用程序上传一个登录 cookie，或者让这个后请求正常工作。

我已经通过 Opera 的检查器查看了一些成功的出站请求，但我一定仍然遗漏了一些东西，或者 requests 正在做的事情无论我做什么都被服务器拒绝。

问题的实质如下。目前这是用 Python 2.7 编写的并使用 Python requests和 BeautifulSoup .要自己运行它，请将 get_login_response() 顶部的 e 和 p 对更新为一组真实的值。

import requests
from bs4 import BeautifulSoup

class Login:

    def __init__(self):
        self.session = requests.session()

    def get_hidden_fields(self):
        """ -> string. tumblr dynamically generates a key for its login forms
        This should extract that key from the form so that the POST-data to
        login will be accepted.
        """
        pageRequest = requests.Request("GET","https://www.tumblr.com/login")
        received = self.session.send( pageRequest.prepare() )
        html = BeautifulSoup(received.content)
        hiddenFieldDict = {}
        hiddenFields = html.find_all("input",type="hidden")
        for x in hiddenFields: hiddenFieldDict[x["name"]]=x["value"]
        return hiddenFieldDict

    def get_login_response(self):
        e = u"dead@live.com"
        p = u"password"
        endpoint = u"https://tumblr.com/login"
        payload = { u"user[email]": e,
                    u"user[password]": p,
                    u"user[age]":u"",
                    u"tumblelog[name]": u"",
                    u"host": u"www.tumblr.com",
                    u"Connection:":u"keep-alive",
                    u"Context":u"login",
                    u"recaptcha_response_field":u""
                  }
        payload.update( self.get_hidden_fields() )
    ##        headers = {"Content-Type":"multipart/form-data"}
        headers = {u"Content-Type":u"application/x-www-form-urlencoded",
                   u"Connection:":u"keep-alive",
                   u"Origin":u"https://tumblr.com",
                   u"Referer": u"https://www.tumblr.com/login",
                   u"User-Agent":u"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 OPR/18.0.1284.68",
                   u"Accept":u"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
                   u"Accept-Encoding":u"gzip,deflate,sdch",
                   u"Accept-Language":u"en-US,en;q=0.8",
                   u"Cache-Control":u"max-age=0"
                   #"Content-Length":VALUE is still needed
                   }
        # this cookie is stale but it seems we these for free anyways,
        #  so I'm not sure whether it's actually needed. It's mostly
        #  google analytics info.
        sendCookie = {"tmgioct":"52c720e28536530580783210",
                      "__qca":"P0-1402443420-1388781796773",
                      "pfs":"POIPdNt2p1qmlMGRbZH5JXo5k",
                      "last_toast":"1388783309",
                      "capture":"GDTLiEN5hEbMxPzys1ye1Gf4MVM",
                      "logged_in":"0",
                      "_ga":"GA1.2.2064992906.1388781797",
                      "devicePixelRatio":"1",
                      "documentWidth":"1280",
                      "anon_id":"VNHOJWQXGTQXHNCFKYJQUMUIVQBRISPR",
                      "__utma":"189990958.2064992906.1388781797.1388781797.1388781797.1",
                      "__utmb":"189990958.28.10.1388781797",
                      "__utmc":"189990958",
                      "__utmz":"189990958.1388781797.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none)"}
        loginRequest = requests.Request("POST",
                                        endpoint,
                                        headers,
                                        data=payload,
                                        cookies=sendCookie # needed?
##                                        ,auth=(e,p) # may not be needed
                                        )

        contentLength = len(loginRequest.prepare().body)
        loginRequest.data.update({u"Content-Length":unicode(contentLength)})
        return self.session.send( loginRequest.prepare() )

l = Login()
res = l.get_login_response()
print "All cookies: ({})".format(len(l.session.cookies))
print l.session.cookies # has a single generic cookie from the initial GET query
print "Celebrate if non-empty:"
print res.cookies # this should theoretically contain the login cookie

我这边的输出:

All cookies: (1)
<<class 'requests.cookies.RequestsCookieJar'>[<Cookie tmgioct=52c773ed65cfa30622446430 for www.tumblr.com/>]>
Celebrate if non-empty:
<<class 'requests.cookies.RequestsCookieJar'>[]>

如果我的代码不安全，并且您还为我提供了额外的指示，则可加分。我选择 requests 模块是因为它的简单性，但如果它缺乏功能并且我的目标可以使用 httplib2 或我愿意切换的东西。

最佳答案

有许多您没有做但您需要做的事情，还有很多您正在做但没有做的事情。

首先，返回并检查在您的登录请求中发送的 POST 字段。当我在 Chrome 中执行此操作时，我看到以下内容:

user[email]:<redacted>
user[password]:<redacted>
tumblelog[name]:
user[age]:
recaptcha_public_key:6Lf4osISAAAAAJHn-CxSkM9YFNbirusAOEmxqMlZ
recaptcha_response_field:
context:other
version:STANDARD
follow:
http_referer:http://www.tumblr.com/logout
form_key:!1231388831237|jS7l2SHeUMogRjxRiCbaJNVduXU
seen_suggestion:0
used_suggestion:0

您的基于请求的 POST 缺少其中一些字段，特别是 recaptcha_public_key、version、follow、http_referer、form_key、seen_suggestion 和 used_suggestion。

这些字段不是可选的:它们将需要在此 POST 中发送。其中一些可以安全地通用使用，但是获取这些的最安全方法是获取登录页面本身的数据，并使用 BeautifulSoup 从 HTML 中提取值。我假设您具备执行此操作的技能(例如，您知道如何在 HTML 中查找表单输入并解析它们以获取其默认值)。

进入这里的一个好习惯是开始使用 Wireshark 或 tcpdump 等工具来检查您的请求 HTTP 流量，并将其与您从 Chrome/Opera 获得的流量进行比较。这将允许您查看正在发送和未发送的内容，以及这两个请求有何不同。

其次，一旦您开始点击登录页面，您就不需要在您的 POST 上发送 cookie，因此您可以停止这样做。更一般地说，当使用请求 Session 对象时，您不应该输入任何额外的 cookie:只需模拟来自实际浏览器的 HTTP 请求流，您的 cookie 状态就可以了。

第三，您过度指定了 header 字典。您提供的大部分字段将由 Requests 自动填充。现在，假设您正在尝试模拟一个浏览器(从外观上看是 Opera)，您将想要覆盖其中的一些，但大多数可以保留。你应该使用这个标题字典:

{
    u"Origin":u"https://tumblr.com",
    u"Referer": u"https://www.tumblr.com/login",
    u"User-Agent":u"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 OPR/18.0.1284.68",
    u"Accept":u"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    u"Accept-Language":u"en-US,en;q=0.8",
}

下面是我从您的标题字典中删除的字段列表以及删除它们的原因:

Content-Type:当您为 Requests 中的 data 参数提供字典时，我们将 Content-Type 设置为 application/x-www-form -urlencoded 给你。没有必要自己动手。
连接:Requests 管理 HTTP 连接池和 keep-alives 本身:不要参与这个过程，它只会出错。
Accept-Encoding:再次强调，请让 Requests 设置此项，除非您真的准备好处理解码内容。 Requests 只知道如何执行 gzip 和 deflate:如果您发送 sdch 并实际取回它，则您必须自己对其进行解码。最好不要宣传你支持它。
Cache-Control:POST请求不能被缓存，所以这个是无关紧要的。

第四，我想在这里非常清楚，不要自己计算 Content-Length。 Requests 会为你做，并且会做对。如果您自己发送该 header ，可能会出现 Requests 核心开发团队必须追查的各种奇怪的错误。永远没有充分的理由自己设置该 header 。考虑到这一点，您可以停止使用 PreparedRequest 对象并返回使用 session.post()。

关于python - 是 Python 请求在这里做错了什么，还是我的 POST 请求缺少什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20916338/

文章推荐： python - 数据占用多少内存？

文章推荐： objective-c - 如何让用户在 iOS 中绘制重叠的颜色？

文章推荐： python - 应用@staticmethod，python3

文章推荐： Python 一直说 NameError : name 'name' is not defined

post - 防止双重HTTP POST
我已经制作了一个用于报名参加 Activity 的小应用程序。用户输入他们的数据，然后单击“登录我”。现在有时人们在数据库中是双倍的，完全相同的数据彼此之间很快被插入了两次。这只能表示某人单击了两次
post - post 方法中的未定义索引
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: PHP: “Notice: Undefined variable” and “Notice: Undefin
post - post 方法中的未定义索引
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: PHP: “Notice: Undefined variable” and “Notice: Undefin
post - 通过 HTTP 请求 POST 发送 Post 数据
我正在尝试将数据从 Textarea 发布到经典的 ASP 脚本，该脚本更新本地计算机上的 MS SQL，然后发布到另一台服务器上的 PHP 脚本。但是，执行以下操作不起作用，因为它会切断文本区域的数
ruby - 无法使用字符串 'post' 但使用 'POST' 识别表单。 html 包含 'post'
无效的代码: login_form = page.form_with(:method => 'post') 和有效的代码: login_form = page.form_with(:method =>
javascript - 当触发特定 POST 请求时修改 HTTP POST 请求正文(post 参数)
我希望能够在 HTTP Post 请求被触发时拦截它，然后修改其请求正文(或参数)，然后发送它。这怎么可能用 jquery/js 实现。谢谢最佳答案 Jquery ajax beforeSend
php - 你怎么写“Select (all) From (table) Where posting=$posting except this posting？(Mysql)
我想编写一个 Mysql 语句，从表(发布)中选择所有内容，其中标题类似于 $title 除了 $title 的标题。基本上我想显示某个帖子的所有相关帖子。我希望查询选择表中标题或详细信息中具有标题名
post - S3 POST 上传最小策略
我已经成功创建了一个简单的 HTML 表单，它将上传的文件发布到我的 Amazon S3 存储桶。我遵循了以下说明: http://aws.amazon.com/articles/1434 现在我正在
post - PHP POST 推荐人
我正在实现一个 PayPal IPN 页面，并想检查以确保请求真正来自 PayPal 而不是被欺骗。我假设 HTTP_REFERRER 不是一个好的检查方式？我已经尝试过这种方法，但变量只是空的。有
post - nginx 不将 POST 数据转发到 uwsgi -- [UPDATE] flask 不读取 post 数据
我有一个非常简单的设置有一个非常特殊的问题。该设置部署了 nginx Web 服务器以提供一些静态页面。它还有一个用于处理 POST 请求的后端 uwsgi 守护进程。我的nginx位置配置如下
javascript - 为什么我的 HTML POST 请求表单没有通过 Express app.post？如何将数字变量传递给另一个 POST 请求？
我认为我做错了什么，或者误解了我在网上阅读的有关 POST 和 GET 请求的内容。我在 myNumber.ejs 上有一个提交表单。当我按下提交时，有 Add.ejs 的 View 。 Add.ej
javascript - jQuery $.post 和 $.ajax POST 请求不适用于 Express 中的 app.post() 方法
我需要将数据从 Express 应用程序的前端发送到后端，然后使用需要显示该数据的 EJS 呈现页面。问题是 app.post() 方法，随后 res.render() 函数似乎没有完全执行或者当我
amazon-web-services - AWS cfn-hup 配置中的 post.add、post.update 与 post.delete
根据AWS Documentation对于 CloudFormation cfn-hup 帮助程序脚本，cfn-hup Hook 可以具有“要检测的以逗号分隔的条件列表”。这些条件/触发器可以是 po
php - HTTP 500 错误但确实将数据存储到数据库 - Wordpress new-post.php、post.php、edit-post.php 在更新数据结构和插件后无法正常工作
位于“wp-admin/includes/”的“post.php”文件中的 wordpress 函数“get_default_post_to_edit”无法正常工作。当我加载页面时:wp-admin
post - 带有空体的 Flutter post 方法
我使用请求库发布数据，但在服务器上收到空主体，没有传递任何数据。我在代码中遗漏了什么吗？ Map map = new Map(); map[csrfNameKey] = csrfName;
post - Siege 不发送 POST 数据
我正在尝试使用 siege 3.0.1 测试我的网站。但是好像siege不发送POST数据。这是我从网络浏览器收到的请求 POST / HTTP/1.0 Accept: text/html,appli
post - Feign 无法使用 POST 方法
我正在尝试为 stockfigher 游戏 api 编写包装器，只是为了了解 feign 是如何工作的，而且我在第一个 POST 方法中遇到了问题: @RequestMapping(method =
post - 如何使用 Jersey 获取原始 POST？
如何使用 Jersey 获取原始 POST？ @FormParam将不起作用，因为我发布的原始 JSON 不在任何特定的 POST 字段中。最佳答案 Jersey 带有一个用于将 JSON 映射到
post - 使用扩展创建 OData POST 实体
我正在尝试同时创建一个实体和两个子实体的实例。如果我将以下 JSON 发布到/user_objects 资源，它会很高兴地创建父 user_object 实体和链接的 User_object_att
post - IPV6 curl POST 请求
在 IPV6 中如何使用 IPV6 地址和端口号构建 CURL POST http 请求。任何类型的线程都将受到赞赏。尝试构建如下请求 >curl --interface 'http://[2001

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 是 Python 请求在这里做错了什么，还是我的 POST 请求缺少什么？