gpt4 book ai didi

python - 使用python进行网页抓取如何获取文本

转载 作者:行者123 更新时间:2023-11-28 16:57:21 25 4
gpt4 key购买 nike

我正在尝试从网站获取文本,但找不到处理它的方法。需要怎么写?

link="https://www.ynet.co.il/articles/0,7340,L-5553905,00.html"
response = requests.get(link)

soup = BeautifulSoup(response.text,'html.parser')
info = soup.find('div', attrs={'class':'text14'})
name = info.text.strip()
print(name)

它是这样的: enter image description here

我每次都没有

最佳答案

import requests
from bs4 import BeautifulSoup
import json
link="https://www.ynet.co.il/articles/0,7340,L-5553905,00.html"
response = requests.get(link)
soup = BeautifulSoup(response.text,'html.parser')
info = soup.findAll('script',attrs={'type':"application/ld+json"})[0].text.strip()
jsonDict = json.loads(info)
print(jsonDict['articleBody'])

该页面似乎将所有文章数据存储在 <script> 中的 json 中标签所以试试这段代码。

关于python - 使用python进行网页抓取如何获取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57122593/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com