gpt4 book ai didi

python - Webscrape 数据产生 workbook.close() 错误。我该如何纠正它?

转载 作者:行者123 更新时间:2023-11-28 17:59:42 28 4
gpt4 key购买 nike

我正在尝试构建一个网络抓取工具(作为一个副项目)从酒店中提取评论 Google Reviews page并将它们打印到 Excel 工作表中。该页面是无限滚动的,从 0 开始按 10 索引。为此我一直在使用 BeautifulSoup。我的代码如下:

import requests
import xlsxwriter
from bs4 import BeautifulSoup

index = 0
reviewlist = []
while index <= 700:
url = "https://www.google.com/async/reviewSort?vet=12ahUKEwibi8-45LriAhUXeisKHbROA6sQxyx6BAgBED0..i&ved=2ahUKEwibi8-45LriAhUXeisKHbROA6sQjit6BAgBEHw&rlz=1C1GCEB_enAU817AU817&yv=3&async=feature_id:0x6ad642b40a5fb91f%3A0xd4af4255ed578be2,review_source:All%20reviews,sort_by:qualityScore,start_index:{},is_owner:false,filter_text:,next_page_token:,_pms:s,_fmt:pc".format(index)
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
tenreviews = soup.findAll("span", {"jsl": "$t t-uvHqeLvCkgA;$x 0;"})
reviewlist += tenreviews
index += 10

# Export to Excel sheet
workbook = xlsxwriter.Workbook('doubletreereviews.xlsx')
worksheet = workbook.add_worksheet()

row = 0
for review in reviewlist:
worksheet.write(row, 0, review)
row += 1

workbook.close()

运行我的代码时,它会产生以下类型错误。

TypeError: expected string or bytes-like object

我注意到有些元素会正常打印,而其他元素会触发错误。例如,如果我在尝试导出到 Excel 工作表之前通过添加以下代码将列表替换为特定的单个评论,它会起作用,在 A1 中生成包含单个评论的 Excel 工作表。

reviewlist = reviewlist[4]

据此,我推断它与以下事实有关:审查列表中的四个没有 child /后代(不确定我是否正确使用了我在 BeautifulSoups 文档中找到的这个术语)而其他有评论。

谁能阐明这一点并帮助我更正它?

如果我的问题、解释或代码有任何问题,请随时告诉我。我正在努力学习尽可能多的东西!

最佳答案

TypeError: expected string or bytes-like object

因为你正试图写 BeautifulSoup Tag对象

worksheet.write(row, 0, review)

哪里review<class 'bs4.element.Tag'>实例。

review参数必须是 stringnumber , 不是 Tag类型。

关于python - Webscrape 数据产生 workbook.close() 错误。我该如何纠正它?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56321035/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com