- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章Python如何爬取b站热门视频并导入Excel由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
代码如下 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
|
#encoding:utf-8
import
requests
from
lxml
import
etree
import
xlwt
import
os
# 爬取b站热门视频信息
def
spider():
video_list
=
[]
url
=
"https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3"
html
=
requests.get(url, headers
=
{
"User-Agent"
:
"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
}).text
html
=
etree.HTML(html)
infolist
=
html.xpath(
"//li[@class='rank-item']"
)
for
item
in
infolist:
rank
=
"
".join(item.xpath("
.
/
div[@
class
=
'num'
]
/
text()"))
video_link
=
"
".join(item.xpath("
.
/
/
div[@
class
=
'info'
]
/
a
/
@href"))
title
=
"
".join(item.xpath("
.
/
/
div[@
class
=
'info'
]
/
a
/
text()"))
payinfo
=
"
".join(item.xpath("
.
/
/
div[@
class
=
'detail'
]
/
span
/
text()
")).split("
万")
play
=
payinfo[
0
]
+
"万"
comment
=
payinfo[
1
]
if
comment.isdigit()
=
=
False
:
comment
+
=
"万"
upname
=
"
".join(item.xpath("
.
/
/
div[@
class
=
'detail'
]
/
a
/
span
/
text()"))
uplink
=
"http://"
+
"
".join(item.xpath("
.
/
/
div[@
class
=
'detail'
]
/
a
/
@href"))
hot
=
"
".join(item.xpath("
.
/
/
div[@
class
=
'pts'
]
/
div
/
text()"))
video_list.append({
'rank'
: rank,
'videolink'
: video_link,
'title'
: title,
'play'
: play,
'comment'
: comment,
'upname'
: upname,
'uplink'
: uplink,
'hot'
: hot
})
return
video_list
def
write_Excel():
# 将爬取的信息添加到Excel
video_list
=
spider()
workbook
=
xlwt.Workbook()
# 定义表格
sheet
=
workbook.add_sheet(
"b站热门视频"
)
# 添加sheet的name
xstyle
=
xlwt.XFStyle()
# 实例化表格样式对象
xstyle.alignment.horz
=
0x02
# 字体居中
xstyle.alignment.vert
=
0x01
head
=
[
'视频名'
,
'up主'
,
'排名'
,
'热度'
,
'播放量'
,
'评论数'
]
for
h
in
range
(
len
(head)):
sheet.write(
0
, h, head[h], xstyle)
i
=
1
for
item
in
video_list:
# 向单元格(视频名)添加该视频的超链接
if
'"' in item["title"]:
item["title"] = item["title"].split('"'
)[
1
]
title_data
=
'HYPERLINK("'
+
item["videolink
"]+'"
;
"'+item["
title
"]+'"
)'
# 设置超链接
sheet.col(
0
).width
=
int
(
256
*
len
(title_data)
*
3
/
5
)
# 设置列宽
sheet.write(i,
0
, xlwt.Formula(title_data), xstyle)
name_data
=
'HYPERLINK("'
+
item["uplink
"]+'"
;
"'+item["
upname
"]+'"
)'
sheet.col(
1
).width
=
int
(
256
*
len
(name_data)
*
3
/
5
)
sheet.write(i,
1
, xlwt.Formula(name_data), xstyle)
sheet.write(i,
2
, item[
"rank"
], xstyle)
sheet.write(i,
3
, item[
"hot"
], xstyle)
sheet.write(i,
4
, item[
"play"
], xstyle)
sheet.write(i,
5
, item[
"comment"
], xstyle)
i
+
=
1
# 如果文件存在,则将其删除
file
=
"b站热门视频信息.xls"
if
os.path.exists(
file
):
os.remove(
file
)
workbook.save(
file
)
if
__name__
=
=
'__main__'
:
write_Excel()
|
结果展示
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我.
原文链接:https://www.cnblogs.com/zhouzetian/p/12613930.html 。
最后此篇关于Python如何爬取b站热门视频并导入Excel的文章就讲到这里了,如果你想了解更多关于Python如何爬取b站热门视频并导入Excel的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我在字符串中有一个大词。例子白 Wine 额外优惠。 我想在第一行使用“White”,在第二行使用“wine extra offer”。使用下面的代码: string value="White win
我想在无符号中执行一些算术运算,需要取负整数的绝对值,比如 do_some_arithmetic_in_unsigned_mode(int some_signed_value) { unsign
我正在努力使用 data.table 来总结向量函数的结果,这在 ddply 中很容易。 问题 1:使用带有矢量输出的(昂贵的)函数聚合 dt dt[ , as.list(quantile(x)),
我有两个分数列表; 说 A = [ 1/212, 5/212, 3/212, ... ] 和 B = [ 4/143, 7/143, 2/143, ... ] . 如果我们定义 A' = a[0] *
我已经使用 numpy 从 csv 文件中获取数据。 numpy 数组的尺寸为:100*20。我如何取列的平均值(比如 col 3,5,8)并用包含这 3 个 cols 平均值的新列替换它们 如果
在 Rust 中取任意数的 n 次根的最佳方法是什么?例如,num crate 只允许取整数类型的第 n 个主根,即 floor'ed 或 ceil'ed 值......如何最好地接近实际值? 最佳答
看起来这应该很容易,但我很困惑。我已经掌握了使用 dplyr 进行编程的大致技巧0.7,但为此苦苦挣扎:How do Iprogram in dplyr我想要编程的变量是否是一个字符串? 我正在抓取数
在 Rust 中取任意数的 n 次根的最佳方法是什么?例如,num crate 只允许取整数类型的第 n 个主根,即 floor'ed 或 ceil'ed 值......如何最好地接近实际值? 最佳答
我有一个 pandas 数据框,其中有一列名为“coverage”。对于一系列特定索引值,我想获取前 100 行的平均“覆盖率”值。例如,对于索引位置 1001,我想要第 901-1000 行的平均“
import pandas as pd data = {'date': ['1998-03-01', '2001-04-01','1998-06-01','2001-08-01','2001-05-0
我有一个包含 100 个数字的 NSArray。我想创建一个 5 个数字的 NSArray。第二个数组中的第一个数字是第一个数组中前 20 个数字的平均值。第二个数字是第一个数组中第二组 20 个数字
我该怎么做?我试过 abs() 但它只适用于整数。有内置的方法吗? CGFloat flo = -123; abs(flo) 返回 0 最佳答案 使用 fabs() CGFloat f = -123.
我正在采用以下计算的 log2: tl_out.a.bits.size := log2Ceil(s1_row * s2_column * 4.U) 其中,s1_row 和 s2_column 是 UI
如何从 m 个元素集合中取出 n 个元素,以便在元素用完时从头开始? List list = new List() {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}; List newL
我已经完成了研究,但似乎找不到有关该主题的足够文档。 在 Object streams 上尝试一些代码时,我注意到将 BufferedOutputStream 放入 ObjectOutputStrea
我需要计算数据中连续时间组之间的差异,如下所示 from io import StringIO import pandas as pd strio = StringIO("""\
我在 Mongo 数据库中有以下文档: { _id: 1, question: "Blue or red?", __v: 0, votes: [9, 5] } 我想在后
好吧,宇宙中一定有人知道这个问题的答案。 我已经在这里问过这个问题,但仍然没有解决方案。 我需要保留和换行 div 中的文本。到目前为止,我很难想出解决方案。我找到的最佳解决方案并不适用于所有浏览器。
我正在尝试采用 3 个单独的整数输入(年、月、日)并采用这 3 个条目并从中形成一个日期对象,以便我可以使用它来比较其他日期。 这是我目前所拥有的,不知从何而来: public void compar
在我的 IOS 项目中,我有一个包含该函数的自定义 Logger 类(单例) - (void)log:(NSString *)domain logLevel:(int)level logMessage
我是一名优秀的程序员,十分优秀!