python - 为什么 Python 说这个 Netscape cookie 文件无效？-6ren

python - 为什么 Python 说这个 Netscape cookie 文件无效？

转载作者：太空狗更新时间：2023-10-29 20:48:05

28

4

我正在写一个 Google Scholar解析器，并基于 this answer ，我在抓取 HTML 之前设置 cookie。这是我的 cookies.txt 文件的内容:

# Netscape HTTP Cookie File
# http://curlm.haxx.se/rfc/cookie_spec.html
# This file was generated by libcurl! Edit at your own risk.

.scholar.google.com     TRUE    /       FALSE   2147483647      GSP     ID=353e8f974d766dcd:CF=2
.google.com     TRUE    /       FALSE   1317124758      PREF    ID=353e8f974d766dcd:TM=1254052758:LM=1254052758:S=_biVh02e4scrJT1H
.scholar.google.co.uk   TRUE    /       FALSE   2147483647      GSP     ID=f3f18b3b5a7c2647:CF=2
.google.co.uk   TRUE    /       FALSE   1317125123      PREF    ID=f3f18b3b5a7c2647:TM=1254053123:LM=1254053123:S=UqjRcTObh7_sARkN

这是我用来抓取 HTML 的代码:

import http.cookiejar
import urllib.request, urllib.parse, urllib.error

def get_page(url, headers="", params=""):
    filename = "cookies.txt"
    request = urllib.request.Request(url, None, headers, params)
    cookies = http.cookiejar.MozillaCookieJar(filename, None, None)
    cookies.load()
    cookie_handler = urllib.request.HTTPCookieProcessor(cookies)
    redirect_handler = urllib.request.HTTPRedirectHandler()
    opener = urllib.request.build_opener(redirect_handler,cookie_handler)
    response = opener.open(request)
    return response

start = 0
search = "Ricardo Altamirano"
results_per_fetch = 20
host = "http://scholar.google.com"
base_url = "/scholar"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; U; ru; rv:5.0.1.6) Gecko/20110501 Firefox/5.0.1 Firefox/5.0.1'}
params = urllib.parse.urlencode({'start' : start,
                                 'q': '"' + search + '"',
                                 'btnG' : "",
                                 'hl' : 'en',
                                 'num': results_per_fetch,
                                 'as_sdt' : '1,14'})

url = base_url + "?" + params
resp = get_page(host + url, headers, params)

完整的追溯是:

Traceback (most recent call last):
  File "C:/Users/ricardo/Desktop/Google-Scholar/BibTex/test.py", line 29, in <module>
    resp = get_page(host + url, headers, params)
  File "C:/Users/ricardo/Desktop/Google-Scholar/BibTex/test.py", line 8, in get_page
    cookies.load()
  File "C:\Python32\lib\http\cookiejar.py", line 1767, in load
    self._really_load(f, filename, ignore_discard, ignore_expires)
  File "C:\Python32\lib\http\cookiejar.py", line 1997, in _really_load
    filename)
http.cookiejar.LoadError: 'cookies.txt' does not look like a Netscape format cookies file

我四处寻找有关 Netscape cookie 文件格式的文档，但找不到任何可以说明问题的内容。是否需要包含换行符？我将行结尾更改为 Unix 样式，以防万一，但这并没有解决问题。我能找到的最接近的规范是 this ，这对我来说并不意味着我失踪了。最后四行中每一行的字段都由制表符分隔，而不是空格，其他一切对我来说都是正确的。

最佳答案

我在您的示例代码或 cookies.txt 文件副本中没有发现任何明显错误的内容。

我已经检查了 MozillaCookieJar._really_load method 的源代码，它会抛出您看到的异常。

此方法做的第一件事是读取您指定文件的第一行(使用 f.readline())并使用 re.search寻找正则表达式模式 "#( Netscape)? HTTP Cookie File"。这就是您的文件失败的原因。

肯定看起来您的 cookies.txt 会匹配该格式，因此您看到的错误非常令人惊讶。

请注意，您的文件是使用简单的 open(filename) call 打开的。早些时候，所以它将以文本模式打开，并支持通用行结束，这意味着您在 Windows 上运行它并不重要。代码将看到 \n 换行终止字符串，无论文件本身使用何种换行约定。

在这种情况下，我会做的是三次检查您的文件的第一行确实是正确的。它需要包含“# HTTP Cookie File”或“# Netscape HTTP Cookie File”(只有空格，没有制表符，单词之间，大小写匹配)。使用 python 提示测试:

>>> f = open('cookies.txt')
>>> line = f.readline()
>>> line
'# Netscape HTTP Cookie File\n'
>>> import re
>>> re.search("#( Netscape)? HTTP Cookie File", line)
<_sre.SRE_Match object at 0x10fecfdc8>

当我在提示符下键入 line 时，Python 将行表示回显给我，包括 \n 换行符。制表符或 unicode 零宽度空格之类的任何意外都将作为转义码显示在那里。我还验证了 cookiejar 代码使用的正则表达式匹配。

您还可以使用 pdb python debugger验证 http.cookiejar 模块真正做了什么:

>>> import pdb
>>> import http.cookiejar
>>> jar = http.cookiejar.MozillaCookieJar('cookies.txt')
>>> pdb.run('jar.load()')
> <string>(1)<module>()
(Pdb) s
--Call--
> /opt/local/Library/Frameworks/Python.framework/Versions/3.2/lib/python3.2/http/cookiejar.py(1759)load()
-> def load(self, filename=None, ignore_discard=False, ignore_expires=False):
(Pdb) s
> /opt/local/Library/Frameworks/Python.framework/Versions/3.2/lib/python3.2/http/cookiejar.py(1761)load()
-> if filename is None:
(Pdb) s
> /opt/local/Library/Frameworks/Python.framework/Versions/3.2/lib/python3.2/http/cookiejar.py(1762)load()
-> if self.filename is not None: filename = self.filename
(Pdb) s
> /opt/local/Library/Frameworks/Python.framework/Versions/3.2/lib/python3.2/http/cookiejar.py(1765)load()
-> f = open(filename)
(Pdb) n
> /opt/local/Library/Frameworks/Python.framework/Versions/3.2/lib/python3.2/http/cookiejar.py(1766)load()
-> try:
(Pdb) 
> /opt/local/Library/Frameworks/Python.framework/Versions/3.2/lib/python3.2/http/cookiejar.py(1767)load()
-> self._really_load(f, filename, ignore_discard, ignore_expires)
(Pdb) s
--Call--
> /opt/local/Library/Frameworks/Python.framework/Versions/3.2/lib/python3.2/http/cookiejar.py(1989)_really_load()
-> def _really_load(self, f, filename, ignore_discard, ignore_expires):
(Pdb) s
> /opt/local/Library/Frameworks/Python.framework/Versions/3.2/lib/python3.2/http/cookiejar.py(1990)_really_load()
-> now = time.time()
(Pdb) n
> /opt/local/Library/Frameworks/Python.framework/Versions/3.2/lib/python3.2/http/cookiejar.py(1992)_really_load()
-> magic = f.readline()
(Pdb) 
> /opt/local/Library/Frameworks/Python.framework/Versions/3.2/lib/python3.2/http/cookiejar.py(1993)_really_load()
-> if not self.magic_re.search(magic):
(Pdb) 
> /opt/local/Library/Frameworks/Python.framework/Versions/3.2/lib/python3.2/http/cookiejar.py(1999)_really_load()
-> try:

在上面的示例 pdb session 中，我结合使用了 step 和 next 命令来验证正则表达式测试 (self.magic_re.search( magic)) 居然通过了。

关于python - 为什么 Python 说这个 Netscape cookie 文件无效？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11529428/

28

4

0

文章推荐： python - 创建一个常用的功能模块

文章推荐： C++私有(private)构造函数

c++ - 编译错误。定义不匹配。无效(*)(无效*)
我有一个接受以下参数的函数: int setvalue(void (*)(void *)); 为了满足参数:void (*)(void *)，我创建了这样一个函数: static void *
c++ - 无效、无效、C 和 C++
我有以下代码: typedef void VOID; int f(void); int g(VOID); 在 C 中编译得很好(在 Fedora 10 上使用 gcc 4.3.2)。与 C++ 编译的
c - 无效(*foo)(无效): meaning of latest (void)
这个问题已经有答案了: Is f(void) deprecated in modern C and C++? [duplicate] (6 个回答) 已关闭 7 年前。 B.A.T.M.A.N./A.
asp.net-core - 无效 token - 观众 'empty' 无效
我在 ASP.NET Core 3.1 项目上有以下 Identity Server 4 配置: services .AddIdentityServer(y => { y.Events.R
azure - 委托(delegate) token 无效。指定的国家云 ID (1) 无效
我们有一个 O365 租户，一切都是开箱即用的。租户放置在德国云中，而不是全局 (office.de) 中。我们还开发了一个 Office 插件，使用 OAuth 2.0 授权访问共享点。首先，我们向
c# - 错误请求 - 无效 URL - HTTP 错误 400。请求 URL 无效
我有一个如下所示的路由 routes.MapRoute( name: "Default", url: "{controller}/{action}/{i
java - token 无效 - token 无效 : Invalid user for the two legged OAuth
我正在尝试使用 OAuth2.0 访问 google 文档。我已经从 Google API 控制台获取了客户端 ID 和 key 。但是当我运行这段代码时，我收到了异常。如果我遗漏了什么，有人可以建议
rust - 为什么创建const指针的集合对 `for val in a.iter()`无效，而对 `a.iter().map(|val| val)`无效？
此代码有效: let mut b: Vec = Vec::with_capacity(a.len()); for val in a.iter() { b.push(val); } 此代码不起作
azure - 输入参数 'scope' 无效。范围 https ://outlook. office365.com/EWS.AccessAsUser.All 无效
使用 client_credintials 授权类型请求 EWS oauth2 v2.0 的访问 token 时出现错误。 https://login.microsoftonline.com/tena
java - token 无效 - 无效 token : Cannot parse referred token string: Invalid gaia_data. Base64 token 上的 AuthSubToken 原型(prototype)
我通过 Java 应用程序使用 Google 电子表格时遇到了问题。我创建了应用程序，该应用程序运行了 1 年多，没有任何问题，我什至在 Create Spreadsheet using Google
无效 Base64 字符的正则表达式
如何创建匹配所有无效 Base64 字符的正则表达式？我在堆栈上找到了 [^a-zA-Z0-9+/=\n\r].*$ 但是当我尝试时我得到了带有 - 符号的结果字符串.我根本不知道正则表达式，任何人
YAML 无效 - 可能是引号问题
我从 Gitlab CI/CD Pipelines 获得错误信息:yaml invalid。问题是由 .gitlab-ci.yml 脚本的第五行引起的: - 'ssh deployer@gita
spring - @Qualifier 无效
我有 3 个数据源，设置如下: @Configuration @Component public class DataSourceConfig { @Bean("foo") @Conf
mysql - updateOnDuplicate 无效
你好，我想用bulkCreate ex 插入数据: [ { "typeId": 5, "devEui": "0094E796CBFCFEF9", "application_name": "Pressu
iPhone UIApplicationExitsOnSuspend 无效
UIApplicationExitsOnSuspend 不会强制我的应用程序退出。我已经清理过目标、删除了应用程序、重建并重新安装了很多次。我确实需要退出我的应用程序。最佳答案您是否链接了 SD
iPhone 团队配置文件 - 无效
在 iPhone 配置门户上，显示我的 iPhone 团队配置配置文件无效。有一个“由 Xcode 管理”文本。 “续订”按钮被禁用。我该如何解决这个问题？谢谢最佳答案使用 Xcode 3.2.
symfony2 CSRF 无效
好的，所以今天我用我们的“实时”数据库中的新信息更新了我的数据库……从那时起，我的一个表格就出现了问题。如果您需要任何代码，请告诉我，我将对其进行编辑并发布所需的代码... 我有一个报告表格，其中有一
有人可以解释这是什么意思吗？无效(*func)()；
我有一个结构体，其中有一个元素表示为 void (*func)(); 我知道 void 指针通常用于函数指针，但我似乎无法定义该函数。我不断收到取消引用指向不完整类型的指针。我用谷歌搜索了一下但没有结
Coldfusion，oauth_signature 无效
我正在尝试使用 Coldfusion 9 从 ning 网络获取凭证，所以首先这是测试 api 的 curl 语法: curl -k https://external.ningapis.com/xn/
c - 为什么此引用不起作用/无效？
这个问题已经有答案了: Does C have references? (2 个回答) 已关闭 4 年前。我正在学习 C 语言引用，这是我的代码: #include int main(void)

首页

博学

6Ren·AI

商城

python - 为什么 Python 说这个 Netscape cookie 文件无效？