- 使用 Spring Initializr 创建 Spring Boot 应用程序
- 在Spring Boot中配置Cassandra
- 在 Spring Boot 上配置 Tomcat 连接池
- 将Camel消息路由到嵌入WildFly的Artemis上
我们有时候看到一篇好的文章,想去保存下来,传统方式一般是收藏书签、复制粘贴到文档或者直接复制链接保存,但这样一次两次还好,数量多了,比较麻烦不说,还可能不好找~
这个时候,Python的作用就来了,直接抓下来导出为PDF,直接把整个网站的内容都导下来都行~
话不多说,我们直接上代码!
import requests
import parsel
import pdfkit
import os
import re
html_str = """
<!doctype html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Document</title>
</head>
<body>
{article}
</body>
</html>
"""
def change_title(title):
"""
替换标题中的特殊字符
:param title: 传入文章标题
:return: 返回一个替换掉特殊字符的标题
"""
"""
使用re.compile()将正则表达式的字符串形式编译为一个对象,通过该对象提供的一些列方法对文本
进行匹配查找
re.sub() 第一个参数对应的正则表达式,第二个参数为要替换成的字符串, 第三个参数为源字符串
"""
pattern = re.compile(r"[\/\\\:\*\?\"\<\>\|]") # '/ \ : * ? " < > |'
new_title = re.sub(pattern, "_", title) # 替换为下划线
return new_title
for page in range(1, 11):
"""
发送请求的url地址,唯一资源定位符
headers: 请求头 把python伪装成浏览器对服务器发送请求, 然后服务器会给我们返回一个响应数据
请求头所加的参数都是可以在开发者工具中的headers里面的request headers中找到的
比如 user-agent:代表着浏览器的信息
cookies:用户的信息 常用于检测是否有登陆账号
host:域名
referer:常说的防盗链,告诉服务器是从哪个网页跳转过来的
请求方式:可以通过开发者工具中headers里面的数据看到是什么样的请求方式
get请求: 是可以直接从服务器上面获取数据
post请求:需要向服务器发送一个数据 比如说(搜索/登陆)
response:响应对象
状态码: 200表示请求成功 300:重定向 跳转 400:通常是url网址不对 500 一般是服务器问题
获取网页文本数据 response.text 获取网页json字典数据 response.json() 获取网页二进制数据 response.content
"""
url = 'https://****/qdPython/article/list/{page}'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
"""
url里面的****替换为blog.csdn.net即可
把 html 字符串数据转换成一个 Selector 对象
Selector 就具有一系列数据解析的方法 css/xpath/re
类选择器 都是使用圆点.开头
ID选择器 是使用#开头
属性选择器:
::text获取标签里面的文本数据
::attr(xxx) 获取标签内某一个属性的数据
get() 从 Selector 对象中提取第一个数据, 直接返回字符串数据给我们
getall() 从 Selector 对象中提取提取所有数据, 返回一个列表
"""
selector = parsel.Selector(response.text)
href = selector.css('.article-list div.article-item-box a::attr(href)').getall()
for link in href:
response_1 = requests.get(url=link, headers=headers)
selector_1 = parsel.Selector(response_1.text)
title = selector_1.css('#articleContentId::text').get()
content = selector_1.css('#content_views').get()
new_title = change_title(title)
# 创建文件保存地址以及保存文件的名字 和格式
pdf_path = 'pdf\\' + new_title + '.pdf'
html_path = 'pdf\\' + new_title + '.html'
# str.format() 字符串格式化方法
html = html_str.format(article=content)
"""
with open 打开文件时, 当文件对象引用完毕之后会自动关闭文件
html_path:文件保存路径以及名字格式
mode:保存方式 w 写入 如果你不写mode默认是r 读
encoding: 编码
as f 重命名 可以自定义
f = open()
f.writer()
f.close()
"""
with open(html_path, mode='w', encoding='utf-8') as f:
f.write(html)
print('正在保存:', title)
# exe 文件存放的路径
config = pdfkit.configuration(wkhtmltopdf='C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe')
# 把 html 通过 pdfkit 变成 pdf 文件
pdfkit.from_file(html_path, pdf_path, configuration=config)
os.remove(html_path)
兄弟们快去试试吧!
给大家推荐个视频合集
代码总是学完就忘记?100个Python实战项目!让你沉迷学习丨学以致用丨下一个大神就是你!
我尝试根据表单元素的更改禁用/启用保存按钮。但是,当通过弹出按钮选择更改隐藏输入字段值时,保存按钮不受影响。 下面是我的代码。我正在尝试序列化旧的表单值并与更改后的表单值进行比较。但我猜隐藏的字段值无
我正在尝试保存模型的实例,但我得到了 Invalid EmbeddedDocumentField item (1) 其中 1 是项目的 ID(我认为)。 模型定义为 class Graph(Docum
我有一个非常奇怪的问题......在我的 iPhone 应用程序中,用户可以打开相机胶卷中的图像,在我的示例中 1920 x 1080 像素 (72 dpi) 的壁纸。 现在,想要将图像的宽度调整为例
目前,我正在使用具有排序/过滤功能的数据表成功地从我的数据库中显示图像元数据。在我的数据表下方,我使用第三方图像覆盖流( http://www.jacksasylum.eu/ContentFlow/
我的脚本有问题。我想按此顺序执行以下步骤: 1. 保存输入字段中的文本。 2. 删除输入字段中的所有文本。 3. 在输入字段中重新加载之前删除的相同文本。 我的脚本的问题是 ug()- 函数在我的文本
任何人都可以帮助我如何保存多对多关系吗?我有任务,用户可以有很多任务,任务可以有很多用户(多对多),我想要实现的是,在更新表单中,管理员可以将多个用户分配给特定任务。这是通过 html 多选输入来完成
我在 Tensorflow 中训练了一个具有批归一化的模型。我想保存模型并恢复它以供进一步使用。批量归一化是通过 完成的 def batch_norm(input, phase): retur
我遇到了 grails 的问题。我有一个看起来像这样的域: class Book { static belongsTo = Author String toString() { tit
所以我正在开发一个应用程序,一旦用户连接(通过 soundcloud),就会出现以下对象: {userid: userid, username: username, genre: genre, fol
我正在开发一个具有多选项卡布局的 Angular 7 应用程序。每个选项卡都包含一个组件,该组件可以引用其他嵌套组件。 当用户选择一个新的/另一个选项卡时,当前选项卡上显示的组件将被销毁(我不仅仅是隐
我尝试使用 JEditorPane 进行一些简单的文本格式化,但随着知识的增长,我发现 JTextPane 更容易实现并且更强大。 我的问题是如何将 JTextPane 中的格式化文本保存到文件?它应
使用 Docker 相当新。 我为 Oracle 11g Full 提取了一个图像。创建了一个数据库并将应用程序安装到容器中。 正确配置后,我提交了生成 15GB 镜像的容器。 测试了该图像的新容器,
我是使用 Xcode 和 swift 的新手,仍在学习中。我在将核心数据从实体传递到文本字段/标签时遇到问题,然后用户可以选择编辑和保存记录。我的目标是,当用户从 friendslistViewCon
我正在用 Java 编写 Android 游戏,我需要一种可靠的方法来快速保存和加载应用程序状态。这个问题似乎适用于大多数 OO 语言。 了解我需要保存的内容:我正在使用策略模式来控制我的游戏实体。我
我想知道使用 fstream 加载/保存某种结构类型的数组是否是个好主意。注意,我说的是加载/保存到二进制文件。我应该加载/保存独立变量,例如 int、float、boolean 而不是结构吗?我这么
我希望能够将 QNetworkReply 保存到 QString/QByteArray。在我看到的示例中,它们总是将流保存到另一个文件。 目前我的代码看起来像这样,我从主机那里得到一个字符串,我想做的
我正在创建一个绘图应用程序。我有一个带有 Canvas 的自定义 View ,它根据用户输入绘制线条: class Line { float startX, startY, stopX, stop
我有 3 个 Activity 第一个 Activity 调用第二个 Activity ,第二个 Activity 调用第三个 Activity 。 第二个 Activity 使用第一个 Activi
我想知道如何在 Xcode 中保存 cookie。我想使用从一个网页获取的 cookie 并使用它访问另一个网页。我使用下面的代码登录该网站,我想保存从该连接获得的 cookie,以便在我建立另一个连
我有一个 SQLite 数据库存储我的所有日历事件,建模如下: TimerEvent *Attributes -date -dateForMark -reminder *Relat
我是一名优秀的程序员,十分优秀!