gpt4 book ai didi

python - 无法限制我的脚本解析网页中的特定部分

转载 作者:行者123 更新时间:2023-12-01 01:36:14 24 4
gpt4 key购买 nike

我用 python 编写了一个脚本,用于从网页中抓取 Plot 中的描述。问题是描述位于多个 p 标记内。还有其他我不想删除的 p 标签。一旦我的脚本解析完 Plot 的描述,它就应该停止。但是,我的下面的脚本从 Plot 部分开始解析所有 p 标记。

如何限制我的脚本仅解析Plot的描述?

这是我写的:

import requests
from bs4 import BeautifulSoup

url = "https://en.wikipedia.org/wiki/Alien_(film)"

with requests.Session() as s:
s.headers={"User-Agent":"Mozilla/5.0"}
res = s.get(url)
soup = BeautifulSoup(res.text,"lxml")
plot = [item.text for item in soup.select_one("#Plot").find_parent().find_next_siblings("p")]
print(plot)

最佳答案

如果您不强制使用beautifulSoup,您可以尝试以下方式获取所需的文字内容

from lxml import html

with requests.Session() as s:
s.headers={"User-Agent":"Mozilla/5.0"}
res = s.get(url)
source = html.fromstring(res.content)
plot = [item.text_content() for item in source.xpath('//p[preceding::h2[1][span="Plot"]]')]
print(plot)

关于python - 无法限制我的脚本解析网页中的特定部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52369846/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com