- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章Python登录并获取CSDN博客所有文章列表代码实例由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
分析登录过程 。
这几天研究百度登录和贴吧签到,这百度果然是互联网巨头,一个登录过程都弄得复杂无比,简直有毒。我研究了好几天仍然没搞明白。所以还是先挑一个软柿子捏捏,就选择CSDN了.
过程很简单,我也不截图了。直接打开浏览器,然后打开Fiddler,然后登录CSDN。然后Fiddler显示浏览器向https://passport.csdn.net/account/login?ref=toolbar发送了一个POST请求,这个请求包含了登录表单,而且还是未加密的。当然CSDN本身还是使用了HTTPS,所以安全性还行.
请求体如下,username和password当然是用户名和密码了.
1
|
username=XXXXX&password=XXXXXX&rememberMe=true<=LT-461600-wEKpWAqbfZoULXmFmDIulKPbL44hAu&execution=e4s1&_eventId=submit
|
lt参数我不知道是干啥的,结果直接在页面中一看原来全在表单里头,这下直接全了。CSDN很贴心的连注释都给出了。另外如果你打开百度首页的话,还会发现浏览器的log中还会输出百度的招聘信息.
HTML截图 。
登录代码 。
这些信息全有了,这样我们就可以登录了。不说废话,直接上代码。先说说我遇到的几个坑.
首先是一个参数错误,其实逻辑没问题,但是代码我复制粘贴之后忘了改名字了,就登录表单那里,三个参数全弄成了lt,结果登录返回来的页面是错误页面。我还以为是没有附带什么请求头,瞎整了大半天。最后用Fiddler调试了好多遍才发现.
第二个问题就是CSDN鸡贼的跳转。由于浏览器自带了JS引擎,所以我们在浏览器中输入网址,到达页面这一过程不一定就是一个请求。可能中间用了什么JS代码先跳转到中间页面,最后才跳转到实际页面。代码里的_validate_redirect_url(self)函数就是干这个的,登录完了第一次请求会得到一个中间页面,它包含了一堆JS代码,其中有个重定向网址。我们获取到这个重定向网址,还得请求一次,获得200OK之后,后续请求才能获得实际页面.
第三个问题就是正则表达式匹配页面的空格问题了。获取文章首先得知道文章总数,这个好办,直接获取页面里的文章数就行了。它类似100条共20页这个。那么该怎么获取呢?一开始我用的(\d+)条共(\d+)页这个正则,但是结果没匹配到,然后我仔细看了一下页面,原来这两个词之间不是一个空格,而是两个空格!其实这个问题倒是也好办,改一下正则(\d+)条\s*共(\d+)页就行了。所以以后如果遇到空格问题,直接用\s匹配,不要想着自己输入一个空格还是两个空格.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
|
import
requests
from
bs4
import
BeautifulSoup
import
re
import
urllib.parse as parse
class
CsdnHelper:
"""登录CSDN和列出所有文章的类"""
csdn_login_url
=
'https://passport.csdn.net/account/login?ref=toolbar'
headers
=
{
'User-Agent'
:
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
,
}
blog_url
=
'http://write.blog.csdn.net/postlist/'
def
__init__(
self
):
self
._session
=
requests.session()
self
._session.headers
=
CsdnHelper.headers
def
login(
self
, username, password):
'''登录主函数'''
form_data
=
self
._prepare_login_form_data(username, password)
response
=
self
._session.post(CsdnHelper.csdn_login_url, data
=
form_data)
if
'UserNick'
in
response.cookies:
nick
=
response.cookies[
'UserNick'
]
print
(parse.unquote(nick))
else
:
raise
Exception(
'登录失败'
)
def
_prepare_login_form_data(
self
, username, password):
'''从页面获取参数,准备提交表单'''
response
=
self
._session.get(CsdnHelper.csdn_login_url)
login_page
=
BeautifulSoup(response.text,
'lxml'
)
login_form
=
login_page.find(
'form'
,
id
=
'fm1'
)
lt
=
login_form.find(
'input'
, attrs
=
{
'name'
:
'lt'
})[
'value'
]
execution
=
login_form.find(
'input'
, attrs
=
{
'name'
:
'execution'
})[
'value'
]
eventId
=
login_form.find(
'input'
, attrs
=
{
'name'
:
'_eventId'
})[
'value'
]
form
=
{
'username'
: username,
'password'
: password,
'lt'
: lt,
'execution'
: execution,
'_eventId'
: eventId
}
return
form
def
_get_blog_count(
self
):
'''获取文章数和页数'''
self
._validate_redirect_url()
response
=
self
._session.get(CsdnHelper.blog_url)
blog_page
=
BeautifulSoup(response.text,
'lxml'
)
span
=
blog_page.find(
'div'
,
class_
=
'page_nav'
).span
print
(span.string)
pattern
=
re.
compile
(r
'(\d+)条\s*共(\d+)页'
)
result
=
pattern.findall(span.string)
blog_count
=
int
(result[
0
][
0
])
page_count
=
int
(result[
0
][
1
])
return
(blog_count, page_count)
def
_validate_redirect_url(
self
):
'''验证重定向网页'''
response
=
self
._session.get(CsdnHelper.blog_url)
redirect_url
=
re.findall(r
'var redirect = "(\S+)";'
, response.text)[
0
]
self
._session.get(redirect_url)
def
print_blogs(
self
):
'''输出文章信息'''
blog_count, page_count
=
self
._get_blog_count()
for
index
in
range
(
1
, page_count
+
1
):
url
=
f
'http://write.blog.csdn.net/postlist/0/0/enabled/{index}'
response
=
self
._session.get(url)
page
=
BeautifulSoup(response.text,
'lxml'
)
links
=
page.find_all(
'a'
, href
=
re.
compile
(r
'http://blog.csdn.net/u011054333/article/details/(\d+)'
))
print
(f
'----------第{index}页----------'
)
for
link
in
links:
blog_name
=
link.string
blog_url
=
link[
'href'
]
print
(f
'文章名称:《{blog_name}》 文章链接:{blog_url}'
)
if
__name__
=
=
'__main__'
:
csdn_helper
=
CsdnHelper()
username
=
input
(
"请输入用户名"
)
password
=
input
(
"请输入密码"
)
csdn_helper.login(username, password)
csdn_helper.print_blogs()
|
当然,这里最重要的的就是登录过程了。我们登录之后,才可以做其他事情。比方说,下一步还能写一个备份工具,把CSDN博客的所有文章和图片下载到本地。有兴趣的同学可以试一试.
总结 。
以上就是本文关于Python登录并获取CSDN博客所有文章列表代码实例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持! 。
原文链接:https://www.jianshu.com/p/c20544c42b4a 。
最后此篇关于Python登录并获取CSDN博客所有文章列表代码实例的文章就讲到这里了,如果你想了解更多关于Python登录并获取CSDN博客所有文章列表代码实例的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
有没有一种方法可以使用标准类型构造函数(例如 int、set、dict、list、tuple 等)以用户定义的方式将用户定义类的实例强制转换为其中一种类型?例如 class Example:
我知道这个问题在Stackoverflow中有很多问题,但是即使有很多答案,这些答案也帮不了我什么,也没有找到答案。 在我的WebAPP中,它可以正常工作,但是当我将其转换为API时,它失败了(主题标
这个问题已经有答案了: Why does the ternary operator unexpectedly cast integers? (3 个回答) 已关闭 9 年前。 最近遇到一个Java的陷
我尝试使用 FirebaseApp.configure() 配置 Firebase,但遇到以下崩溃: *** Terminating app due to uncaught exception 'c
我有一个自连接员工实体类,其中包含与其自身相关的 id、name 和 ref 列。我想创建它的新实例并将其保存到数据库。 首先我创建了一个 Employee 类的实例并将其命名为 manager。然后
我有一个用于添加新公寓的表单,在该表单中我有一个下拉列表,用户可以在其中选择负责的人员。 显然,当您从下拉列表中选择并尝试保存公寓时,我的应用程序认为该人已被修改。它给了我下面的错误,指示我应该首先保
从 Visualforce 页面,我需要检索我们组织的 salesforce 实例的 URL,而不是 Visual Force URL。 例如我需要https://cs1.salesforce.com
我遇到了一些可能的问题答案,但这是关于从 Hibernate 3.4.0GA 升级到 Hibernate 4.1.8 的问题。所以这曾经在以前的版本下工作,我已经四处搜索了为什么它在这个新版本中出现了
似乎一遍又一遍地问这个问题,我仍然找不到解决我问题的答案。我在下面有一个域模型。每个新创建或更新的“安全用户”都需要我确保其具有配置文件,如果没有,则创建一个新的配置文件并分配给它。 配置文件的要求相
我很难调试为什么 JPA 不级联我的 @ManyToMany 关系。我发现的所有答案都与缺少级联语句有关。但我确实拥有它们并且仍然得到: Caused by: org.hibernate.Transi
Play 服务 API 表明有一个叫做 Instance ID 的东西 但是,在 Android Studio 中包含以下内容后,我无法导入 InstanceID 类 compile "com.goo
我正在使用 Seam 框架。我有 2 个实体: 请求.java @Entity @Table(name = "SRV_REQUEST") public class Request { private
This question处理构建一个适当的Monad来自单子(monad)的实例,但仅在某些约束下 - 例如Set .诀窍是将其包装成 ContT ,它将约束推迟到包装/展开其值。 现在我想对 Ap
我正在尝试执行此查询: StringBuffer sb = new StringBuffer(); sb.append("select p from PointsEntity p " + "where
我试图了解是否可以更改我的 hibernate 配置并使用单个 MySQL 实例(而不是我当前拥有的多个 MySQL 实例): 我有一个使用 hibernate 的 Java 应用程序,与 2 个模式
我有一个选项卡滑动布局,其中包括四个选项卡,每个选项卡都有自己的布局和 fragment ,在我的主要 Activity 布局中,viewpager 参与更改选项卡。特定 View (选项卡)在应用程
我看到很多帖子声称他们正在运行 MySql 的 RDS 实例,但无法连接到该实例,但我没有运行 RDS。 我使用 EC2 实例来托管我的 WordPress 博客,该博客是使用 Web 平台安装程序安
因为我在我的 ec-2 实例上的 python 虚拟环境中运行应用程序( Airflow ),并且我想在同一个 ec2 实例上的默认 python 环境中运行命令,所以我认为 ssh 到我自己的实例更
这个问题已经有答案了: How to fix the Hibernate "object references an unsaved transient instance - save the tra
例子: run APP1 .. ... run APP1 ... run APP2 如何在 APP2 中对 Vue 说我需要调用 APP1?
我是一名优秀的程序员,十分优秀!