gpt4 book ai didi

Python正则抓取新闻标题和链接的方法示例

转载 作者:qq735679552 更新时间:2022-09-27 22:32:09 25 4
gpt4 key购买 nike

CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章Python正则抓取新闻标题和链接的方法示例由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen( "http://www.itongji.cn/news/" ).read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
   pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
   title = re.findall(pat, info)
   titles = '\n' .join(title)
   #print titles
#修改指定字符串
   titles1 = titles.replace( 'class="title"' , 'title' )
   titles2 = titles1.replace( '>' , ':' )
   titles3 = titles2.replace( 'href' , 'url:' )
   titles4 = titles3.replace( '="/' , '"http://www.itongji.cn/' )
#写入文件
   save = open ( 'xinwen.txt' , 'w' )
   save.write(titles4)
   save.close()
titles = extract_title(doc)

希望本文所述对大家Python程序设计有所帮助.

最后此篇关于Python正则抓取新闻标题和链接的方法示例的文章就讲到这里了,如果你想了解更多关于Python正则抓取新闻标题和链接的方法示例的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com