- Java锁的逻辑(结合对象头和ObjectMonitor)
- 还在用饼状图?来瞧瞧这些炫酷的百分比可视化新图形(附代码实现)⛵
- 自动注册实体类到EntityFrameworkCore上下文,并适配ABP及ABPVNext
- 基于Sklearn机器学习代码实战
博客园在个人首页有一个简单的博客数据统计,以博客园官方的首页为例:
但是这些数据不足以分析更为细节的东西 。
起初我是想把博客园作为个人学习的云笔记,但在一点点的记录中,我逐渐把博客园视为 知识创作 和 知识分享 的平台 。
所以从年后开始,就想着做一个类似 CSDN 里统计文章数据的工具 。
这样的统计功能可以更好的去分析读者对于内容的需求,了解文章内容的价值,以及从侧面认识自己在知识创作方面的能力 。
这个程序是我昨天晚上一时兴起,看到了一位博主的文章 Python爬虫实战-统计博客园阅读量问题 ,正好检验自己对python的掌握,于是补充和修改了他的代码。因为想着要更为直观的展示文章数据,所以分了几个模块去写,以方便后续增加和修改功能 。
程序目前只有三个 .py 文件,爬取数据后解析并写入到 txt 中(后续会使用更规范的方法做持久化处理) 。
from spider import spider
from store import write_data
# 设置博客名,例如我的博客地址为:https://www.cnblogs.com/KoiC,此处则填入KoiC
blog_name = 'KoiC'
if __name__ == '__main__':
post_info = spider(blog_name)
# print(post_info)
write_data(post_info, blog_name)
print('执行完毕!')
import time
import requests
import re
from lxml import etree
def spider(blog_name):
"""
爬取相关数据
"""
# 设置UA和目标博客url
headers = {
"User-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.41"
}
url = "https://www.cnblogs.com/" + blog_name + "/default.html?page=%d"
# 测试访问
req = requests.get(url, headers)
print('测试访问状态:%d'%req.status_code)
print('开始爬取数据...')
post_info = [] # 全部博文信息
#分页爬取数据
for page_num in range(1, 999):
# 指向目标url
new_url = format(url%page_num)
# 获取页面
req = requests.get(url=new_url, headers=headers)
# print(req.status_code)
tree = etree.HTML(req.text)
# 获取目标数据(各博文名称和阅读量)
count_list = tree.xpath('//div[@class="forFlow"]/div/div[@class="postDesc"]/span[1]/text()')
title_list = tree.xpath('//div[@class="postTitle"]/a/span/text()')
# 获取该页博文数量
post_count = len(count_list)
# 如果该页没有博文,跳出循环
if post_count == 0:
break
# 解析目标数据
for i in range(post_count):
# 对数据进行处理
post_title = title_list[i].strip() # 处理前后多余的空格、换行等
post_view_count = re.findall('\d+', count_list[i]) # 正则表达式获取阅读量数据
single_post_info = [post_title, post_view_count[0]] # 单篇博文数据
post_info.append(single_post_info)
time.sleep(0.8)
return post_info
import os
import time
def write_data(post_info, blog_name):
"""
对数据进行持久化
"""
print('开始写入数据...')
# 获取时间
now_time = time.localtime(time.time())
select_date = time.strftime('%Y-%m-%d', now_time)
select_time = time.strftime('%Y-%m-%d %H:%M:%S ', now_time)
# 按日期创建文件路径
file_path = './{:s}/{:s}'.format(str(now_time.tm_year), str(now_time.tm_mon))
try:
os.makedirs(file_path) # 该方法创建路径时,若路径存在会报异常,使用 try catch 跳过异常
except OSError:
pass
# 写入数据
try:
fp = open('{:s}/{:s}.txt'.format(file_path, select_date), 'a+', encoding = 'utf-8')
fp.write('阅读量\t\t 博文题目\n')
view_count = 0 # 总阅读量
for single_post_info in post_info:
view_count += int(single_post_info[1])
fp.write('{:<12s}{:s}\n'.format(single_post_info[1], single_post_info[0]))
fp.write('------博客名:{:s} 博文数量:{:d} 总阅读量:{:d} 统计时间:{:s}\n\n'.format(blog_name, len(post_info), view_count, select_time))
# 关闭资源
fp.close()
except FileNotFoundError:
print('无法打开指定的文件')
except LookupError:
print('指定编码错误')
except UnicodeDecodeError:
print('读取文件时解码错误')
程序会在目录下按日期创建文件夹 。
进入后可找到以日期命名的 txt 文件,以我自己的博客为例,得到以下统计信息:
可以将程序挂在服务器上,定时统计数据,观察阅读量的涨幅.
后续我会逐渐完善功能,形成一个自动化的小工具,感兴趣的可以点个关注,谢谢阅读! 。
Python爬虫实战-统计博客园阅读量问题 。
XPath 教程 。
Python 正则表达式 。
python正则表达式从字符串中提取数字 。
Python os.makedirs() 方法 。
Python File(文件) 方法 。
Python异常捕获与处理 。
最后此篇关于我制作了一个博客园文章信息统计的小工具的文章就讲到这里了,如果你想了解更多关于我制作了一个博客园文章信息统计的小工具的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我想在一个页面上做一个按钮,可以在同一页面调用一个JS函数。该函数将需要创建(打开)新窗口,其 HTML 代码由 JS 函数本身提供。我该怎么做? 这样做的目的是从特定页面生成一个打印友好的页面。 请
我一直在用 php 开发这个项目。该项目的一半是使用 mysql_query 完成的,最新的模块是使用 mysqli 制作的。有很多模块,我不想更改代码。如果是这样的话会不会产生问题。或者我应该将其全
我安装了好几次 qt creator,但它从来没有像我现在的 PC 那样花钱;首先,我使用我的 Pendrive(Qt 5.8 的)上一直有的安装程序,告诉我我无法下载一些存储库,我下载了相同安装程序
我安装了 Qt Creator 5.10.1,当我构建项目时出现错误:“无法确定要运行哪个”make“命令。检查构建配置中的”make“步骤。”。 我已经在另一台 PC 上安装了 Qt,我看到了这个问
看看这个 makefile,它有某种原始的进度指示(可能是一个进度条)。 请给我建议/意见! # BUILD 最初是未定义的 ifndef 构建 # max 等于 256 个 x 十六:= x x x
这个问题会有点长,对此我很抱歉:) 我花了几天时间寻找最好的解决方案,以在 asp mvc 和 JQuery 中制作图像库。 主要问题是当用户点击拇指时显示图像。 我想让整个浏览器 View 变成黑色
我是Python方面的 super 高手。我一直在努力寻找适当的解决方案。这是列表,L = [0, 0, 0, 3, 4, 5, 6, 0, 0, 0, 0, 11, 12, 13, 14, 0, 0
让我们考虑两个简化的 CMakeLists.txt set(GTEST "/usr/local/lib/libgtest.a") set(GMOCK "/usr/local/lib/libgmock.
我如何制作 Makefile,因为这是按源代码分发程序的最佳方式。请记住,这是针对 C++ 程序的,而我是从 C 开发领域开始的。但是可以为我的 Python 程序制作 Makefile 吗? 最佳答
由于 Ord 是 Eq 的子类,我发现很难理解创建该类的新类型实例的样子。 我已经设法做到了: newtype NT1 = NT1 Integer instance Eq NT1 wh
在 PowerShell 中,我想编写一个函数,它接受不同的选项作为参数。没关系,如果它接收多个参数,但它必须接收至少一个参数。我想通过参数定义而不是之后的代码来强制执行它。我可以使用以下代码让它工作
我正在通过构建包使用 enable-ssl 在 heroku (ubuntu) 上安装 ffmpeg。我能够一直构建到这些错误: install: cannot create regular file
我是 FFmpeg 的新手,但作为一个学习一些 mysql 数据库的项目,我正在尝试创建一个视频上传网站。 当我尝试使用此代码制作缩略图时: shell_exec("/usr/local/bin/ff
我想要一个绘制可绘制对象的 Actor ,但将其剪辑为 Actor 的大小。我从 Widget 派生这个类,并使用一些硬编码的值作为一个简单的测试: public class MyWidget ext
我一直在查看 Faxien+Sinan 和 Rebar,Erlang OTP 的基本理念似乎是,在单个 Erlang 镜像实例上安装应用程序和版本。保持发布自包含的最佳实践是什么?有没有办法打包发布,
我正在尝试克隆存储库,但它应该是彼此独立的副本。这背后有什么魔法吗,或者只是使用 svn 客户端并克隆它? 谢谢 最佳答案 试试 svnadmin hotcopy .您可以在 repo mainten
我想做一个这样的菜单: Item 1 Item 2 Item 3 Subitem 1 Subitem 2 但我得到了这个:
为 Yii 创建扩展的最佳方式是什么? 这是我到目前为止所做的 我希望它可以通过 composer 安装,所以我为它创建了一个 github repo。 我在文件夹 vendor/githubname
我尝试制作一个ActionListener,但它给了我一个错误。我导入了事件,但它仍然不起作用。这是我的代码: send.addActionListener(new jj); private clas
我需要能够将 div 内的 HTML 代码恢复为页面就绪状态。我需要这个,因为我想在页面准备好后对 HTML 代码进行一些更改,然后在需要时将其恢复到页面准备好时的状态.. 我想使用克隆,但是如何只复
我是一名优秀的程序员,十分优秀!