python实现批量下载新浪博客的方法-6ren

python实现批量下载新浪博客的方法

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章python实现批量下载新浪博客的方法由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

本文实例讲述了python实现批量下载新浪博客的方法。分享给大家供大家参考。具体实现方法如下:

 
    ? 
   
         # coding=utf-8  
        
         import 
         urllib2 
        
         import 
         sys, os 
        
         import 
         re 
        
         import 
         string 
        
         from 
         BeautifulSoup  
         import 
         BeautifulSoup 
        
         def 
         encode(s): 
        
         return 
         s.decode( 
         'utf-8' 
         ).encode(sys.stdout.encoding,  
         'ignore' 
         ) 
        
         def 
         getHTML(url): 
        
         #proxy_handler = urllib2.ProxyHandler({'http':'http://211.138.124.211:80'}) 
        
         #opener = urllib2.build_opener(proxy_handler) 
        
         #urllib2.install_opener(opener) 
        
         req  
         = 
         urllib2.Request(url) 
        
         response  
         = 
         urllib2.urlopen(req, timeout 
         = 
         15 
         ) 
        
         return 
         BeautifulSoup(response, convertEntities 
         = 
         BeautifulSoup.HTML_ENTITIES) 
        
         def 
         visible(element): 
        
         '''抓取可见的文本元素''' 
        
         if 
         element.parent.name  
         in 
         [ 
         'style' 
         ,  
         'script' 
         ,  
         '[document]' 
         ,  
         'head' 
         ,  
         'title' 
         ]: 
        
         return 
         False 
        
         elif 
         re.match( 
         '<!--.*-->' 
         ,  
         str 
         (element)): 
        
         return 
         False 
        
         elif 
         element  
         = 
         = 
         u 
         '\xa0' 
         : 
        
         return 
         False 
        
         return 
         True 
        
         def 
         delReturn(element): 
        
         '''删除元素内的换行''' 
        
         return 
         re.sub( 
         '(?<!^)\n+(?!$)' 
         ,  
         ' ' 
         ,  
         str 
         (element)).decode( 
         'utf-8' 
         ) 
        
         def 
         validFilename(filename): 
        
         # windows 
        
         return 
         re.sub( 
         '[\/:*?<>"|\xa0]' 
         , '', filename) 
        
         def 
         writeToFile(text, filename, dirname): 
        
         if 
         not 
         os.path.exists(dirname): 
        
         os.makedirs(dirname) 
        
         print 
         encode( 
         '保存到目录' 
         ), dirname 
        
         filename  
         = 
         validFilename(filename) 
        
         print 
         encode( 
         '保存文章' 
         ), filename 
        
         path  
         = 
         os.path.join(dirname, filename) 
        
         if 
         not 
         os.path.exists(path): 
        
         f  
         = 
         open 
         (path,  
         'w' 
         ) 
        
         f.write(text) 
        
         f.close() 
        
         else 
         : 
        
         print 
         filename, encode( 
         '已经存在' 
         ) 
        
         def 
         formatContent(url, title 
         = 
         ''): 
        
         '''格式化文章内容''' 
        
         page  
         = 
         getHTML(url) 
        
         content  
         = 
         page.find( 
         'div' 
         , { 
         'class' 
         : 
         'articalContent' 
         }) 
        
         art_id  
         = 
         re.search( 
         'blog_(\w+)\.html' 
         , url).group( 
         1 
         ) 
        
         blog_name  
         = 
         page.find( 
         'span' 
         ,  
         id 
         = 
         'blognamespan' 
         ).string 
        
         if 
         title  
         = 
         = 
         '': 
        
         title  
         = 
         page.find( 
         'h2' 
         ,  
         id 
         = 
         re. 
         compile 
         ( 
         '^t_' 
         )).string 
        
         temp_data  
         = 
         filter 
         (visible, content.findAll(text 
         = 
         True 
         ))  
         # 去掉不可见元素 
        
         temp_data  
         = 
         ''.join( 
         map 
         (delReturn, temp_data))  
         # 删除元素内的换行符 
        
         temp_data  
         = 
         temp_data.strip()  
         # 删除文章首尾的空行 
        
         temp_data  
         = 
         re.sub( 
         '\n{2,}' 
         ,  
         '\n\n' 
         , temp_data)  
         # 删除文章内过多的空行 
        
         # 输出到文件 
        
         # 编码问题 
        
         temp_data  
         = 
         '本文地址:' 
         .decode( 
         'utf-8' 
         )  
         + 
         url  
         + 
         '\n\n' 
         + 
         temp_data 
        
         op_text  
         = 
         temp_data.encode( 
         'utf-8' 
         ) 
        
         op_file  
         = 
         title  
         + 
         '_' 
         + 
         art_id  
         + 
         '.txt' 
        
         writeToFile(op_text, op_file, blog_name) 
        
         def 
         articlelist(url): 
        
         articles  
         = 
         {} 
        
         page  
         = 
         getHTML(url) 
        
         pages  
         = 
         page.find( 
         'ul' 
         , { 
         'class' 
         : 
         'SG_pages' 
         }).span.string 
        
         page_num  
         = 
         int 
         (re.search( 
         '(\d+)' 
         , pages).group( 
         1 
         )) 
        
         for 
         i  
         in 
         range 
         ( 
         1 
         , page_num 
         + 
         1 
         ): 
        
         print 
         encode( 
         '生成第%d页文章索引' 
         % 
         i) 
        
         if 
         i ! 
         = 
         1 
         : 
        
         url  
         = 
         re.sub( 
         '(_)\d+(\.html)$' 
         ,  
         '\g<1>' 
         + 
         str 
         (i) 
         + 
         '\g<2>' 
         , url) 
        
         page  
         = 
         getHTML(url) 
        
         article  
         = 
         page.findAll( 
         'span' 
         , { 
         'class' 
         : 
         'atc_title' 
         }) 
        
         for 
         art  
         in 
         article: 
        
         art_title  
         = 
         art.a[ 
         'title' 
         ] 
        
         art_href  
         = 
         art.a[ 
         'href' 
         ] 
        
         articles[art_title]  
         = 
         art_href 
        
         return 
         articles 
        
         def 
         blog_dld(articles): 
        
         if 
         not 
         isinstance 
         (articles,  
         dict 
         ): 
        
         return 
         False 
        
         print 
         encode( 
         '开始下载文章' 
         ) 
        
         for 
         art_title, art_href  
         in 
         articles.items(): 
        
         formatContent(art_href, art_title) 
        
         if 
         __name__  
         = 
         = 
         '__main__' 
         : 
        
         sel  
         = 
         raw_input 
         (encode( 
         '你要下载的是(1)全部文章还是(2)单篇文章，输入1或者2: ' 
         )) 
        
         if 
         sel  
         = 
         = 
         '1' 
         : 
        
         #articlelist_url = 'http://blog.sina.com.cn/s/articlelist_1303481411_0_1.html' 
        
         articlelist_url  
         = 
         raw_input 
         (encode( 
         '请输入博客文章目录链接: ' 
         )) 
        
         articles  
         = 
         articlelist(articlelist_url) 
        
         blog_dld(articles) 
        
         else 
         : 
        
         #article_url = 'http://blog.sina.com.cn/s/blog_4db18c430100gxc5.html' 
        
         article_url  
         = 
         raw_input 
         (encode( 
         '请输入博客文章链接: ' 
         )) 
        
         formatContent(article_url)

希望本文所述对大家的Python程序设计有所帮助.

最后此篇关于python实现批量下载新浪博客的方法的文章就讲到这里了,如果你想了解更多关于python实现批量下载新浪博客的方法的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： python获取mp3文件信息的方法

文章推荐： python爬虫面试宝典(常见问题)

文章推荐： Python基于Flask框架配置依赖包信息的项目迁移部署

文章推荐：谈谈python中GUI的选择

java - JPA/Hibernate 批量(批量)插入
这是我在阅读了几个关于 jpa 批量插入的主题后创建的简单示例，我有 2 个持久对象用户和站点。一个用户可以有多个站点，所以我们在这里有一对多的关系。假设我想创建用户并将多个站点创建/链接到用户帐户。
azure - 如何在文档数据库中上传多个文档(批量)
我有文档列表(对象)，该对象有多个文档，即存在 Json 记录，但是当我尝试上传文档束(记录)时，它没有上传到文档数据库，但当我上传单个文档记录时，它上传成功。 List listObj = ne
perl - 如何检查域名是否可用(批量)？
我希望进行批量域名查找，看看是否有一些域名可供购买。我找不到 perl 模块，但似乎应该有一种方法可以在 perl 中执行此操作。我正在寻找免费的东西。谢谢! 最佳答案从这里:http://www.
axapta - 批量 FTPWebRequest
我制作了一个批处理类来检查 FTP 上的文件、下载它们并在 FTP 上删除它们。当我手动运行它(不是批量运行)时，它运行完美，下载 FTP 中的所有文件并在下载完成后删除它们。当我尝试批量运行时，
string - 批量 * 通配符替换
我有一个 *+* 形式的字符串 base。我想得到+之前的所有内容。例如，如果 base=foo+bar，我想获取 foo。我尝试过使用字符串替换来实现 set left=%base:+*=% 但这
mysql - 如何使MySQL默认引擎为innodb？(批量)
我需要创建几十个表，并且我需要它们是innodb，有没有办法做到这一点，而不是将 engine=innodb 附加到每个 create table 语句？最佳答案可以在服务器级别指定默认引擎，在
linux - 如何在windows中获取unix风格的提示符(批量)
我正在尝试制作显示 unix/linux 提示符的 dos shell。代码是: @echo off :hi set tmpdrv=%cd:~0,2% if %homedrive% == %tmpdr
matlab - 批量/并行进行一维卷积
我有以下代码，基本上是在二维矩阵的每一行上进行一维卷积。卷积核是一样的。所以真的是 SIMD 案例。 a = [ 1,2,3,4,5; 6,7,8,9,7; 7,6
windows - 如何通过文件夹循环移动文件夹(批量)？
情况: 我尝试在 shell 中的循环内移动文件，但我的代码无法正常工作。 for /D %%F in (*) do ( if "%%F" NEQ "%directoryToPutFilesIn
windows - 批量 |回显多个变量到文件
目录包含 2 个(或更多)任意名称的视频文件。 video1.mkv video2.mkv 需要找出每个视频的持续时间。为此，我们使用 MediaInfo . setlocal EnableDelay
windows - 如何从文件名中删除空格(批量)
如何在 Windows 中批量删除数千个文件中的空格(而不是替换为下划线)？我可以从 DOS 命令执行此操作吗？目前: file one.mp3 file two.mp3 所有文件需要变成: fil
windows - 批量 IF 变量比较神秘地不起作用
我想创建一个批处理文件，它读取 2 个不同的值，并根据它们的比较方式进行相应处理。但是，比较永远不会起作用。代码是: REM string1 and string2 contain the follo
windows - 批量 - 使用通配符将文件夹复制到多个文件夹
我正在尝试将一个文件夹的子文件夹复制到许多其他名称未知的文件夹中。目的是在所有使用它的员工文件夹中备份程序的源文件。如果在员工文件夹中找不到程序文件夹，则不应执行任何操作。这看起来如下: 来源: F:
python - 检测文本是否为英文(批量)
我正在寻找一种简单的方法来检测一小段文本(几句话)是否为英语。在我看来，这个问题比尝试检测任意语言要容易得多。有没有可以做到这一点的软件？我正在用 python 编写，并且更喜欢 python 库，但
android - 批量 Firebase 云消息传递的限制
我们正在尝试向 8k 种不同的设备发送促销推送消息。我们正在成功响应推送通知 URL https://fcm.googleapis.com/fcm/send 但只有部分用户收到此通知，并非全部。那么
batch-file - 批量，用延迟扩展参数替换延迟扩展字符串
基本上我只是用这一段来替换我的 var 中的一个字符串，但我无法让嵌套延迟扩展正常工作。这甚至可能吗？ set replace=!replace:!search!=!replaceVal!! 我知道执
bash - FFmpeg:一次编码多个视频文件(批量)
如何使用 ffmpeg 对一批视频文件进行编码，使用相同的设置？我找到了 one-line solution将当前文件夹中的 .avi 文件转换为 .mov。请注意，我要编码 .mov -> .mo
batch-file - "Counter"批量
我正在尝试制作一个批处理文件，每次循环时都会将变量增加 1，然后检查变量是否等于 5，如果不是，则再次循环。我知道这可能有一个 while 循环，但我不知道如何做到这一点，我现在只是享受学习 Batc
读取带有变量行的 CSV 以跳过、批量
我正在尝试创建一个循环，读取多个 CSV 文件，这些文件都具有相同类型的气温数据。但是，我想跳过数据上方的行。这些是数据集中的“警报”。每个文件可能有不同数量的警报，因此要跳过不同数量的行。见下文:
batch-file - 在文件中回显多个单词会使它崩溃。 (批量)
因此，我正在批量创建一个Mail程序，而消息传递部分出现了问题。消息传递部分是无限循环。当我输入多个单词时，它会崩溃。这是代码。请帮忙! :rep set line= set /p line=

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python实现批量下载新浪博客的方法