python - 如何使用 BeautifulSoup 从嵌套在 <li> 中的 <span> 中提取文本，而 <li> 嵌套在 <ul> 中？-6ren

python - 如何使用 BeautifulSoup 从嵌套在
中的中提取文本，而
嵌套在
中？

转载作者：行者123 更新时间：2023-11-27 22:53:25

27

4

我想从 this page 中提取 Here's what's new 部分的项目，从 future 几周开始，到一般增强结束。

检查代码我看到了 <span > 嵌套在 <li> 下然后嵌套在 <ul id="GUID-8B03C49D-3A98-45F1-9128-392E55823F61__UL_E0490B159DE04E22AD519CE2E7D7A35B"> 下.我尝试用 Python 3 和 BeautifulSoup 提取它最近几天，但无济于事。我正在粘贴我在下面尝试过的代码。

有人会这么好心地指导我正确的方向吗？

1#

from urllib.request import urlopen # open URLs 
from bs4 import BeautifulSoup # BS

import sys # sys.exit() 

page_url = 'https://www.amazon.com/gp/help/customer/display.html/ref=hp_left_v4_sib?ie=UTF8&nodeId=G54HPVAW86CHYHKS'

try: 
    page = urlopen(page_url)
except: 
    sys.exit("No internet connection. Program exiting...")

soup = BeautifulSoup(page, 'html.parser')

try: 
    for ultag in soup.find_all('ul', {'id': 'GUID-8B03C49D-3A98-45F1-9128-392E55823F61__UL_E0490B159DE04E22AD519CE2E7D7A35B'}):
        print(ultag.text)
        for spantag in ultag.find_all('span'):
            print(spantag)
except:
    print("Couldn't get What's new :(")

2#

from urllib.request import urlopen # open URLs 
from bs4 import BeautifulSoup # BS

import sys # sys.exit() 

page_url = 'https://www.amazon.com/gp/help/customer/display.html/ref=hp_left_v4_sib?ie=UTF8&nodeId=G54HPVAW86CHYHKS'

try: 
    page = urlopen(page_url)
except: 
    sys.exit("No internet connection. Program exiting...")

soup = BeautifulSoup(page, 'html.parser')

uls = []
for ul in uls:
    for ul in soup.findAll('ul', {'id': 'GUID-8B03C49D-3A98-45F1-9128-392E55823F61__UL_E0490B159DE04E22AD519CE2E7D7A35B'}):
        if soup.find('ul'):
            break
        uls.append(ul)
    print(uls)
    for li in uls:
        print(li.text)

理想情况下代码应该返回:

在接下来的几周内，您只需在“开始前”对话框中单击一下，即可阅读您拥有的项目。

性能改进、错误修复和其他一般增强功能。

但是两者都没有给我任何东西。好像找不到ul使用该 ID 但如果您 print(soup)一切看起来都不错:

<ul id="GUID-8B03C49D-3A98-45F1-9128-392E55823F61__UL_E0490B159DE04E22AD519CE2E7D7A35B">
<li>
<span class="a-list-item"><span><strong>Read Now</strong></span>: In the coming weeks, you will be able to read items that you own with a single click from the �Before You Go� dialog.</span></li>

<li>
<span class="a-list-item">Performance improvements, bug fixes, and other general enhancements.<br></li>


</ul>

最佳答案

对于 bs4 4.7.1+，您可以使用 :contains 和 :has 来隔离

import requests
from bs4 import BeautifulSoup as bs

r = requests.get('https://www.amazon.com/gp/help/customer/display.html/ref=hp_left_v4_sib?ie=UTF8&nodeId=G54HPVAW86CHYHKS')
soup = bs(r.content, 'lxml')
text = [i.text.strip() for i in soup.select('p:has(strong:contains("Here’s what’s new:")), p:has(strong:contains("Here’s what’s new:")) + p + ul li')]
print(text)

目前，您还可以删除 :contains

text = [i.text.strip() for i in soup.select('p:has(strong), p:has(strong) + p + ul li')]
print(text)

+ 是一个 css 相邻兄弟组合器。阅读更多 here .引用:

Adjacent sibling combinator

The + combinator selects adjacent siblings. This means that the second element directly follows the first, and both share the same parent.

Syntax: A + B

Example: h2 + p will match all <p> elements that directly follow an <h2>.

关于python - 如何使用 BeautifulSoup 从嵌套在 <li> 中的 <span> 中提取文本，而 <li> 嵌套在 <ul> 中？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57725818/

27

4

0

文章推荐： c++ - add_const 不适用于转发引用

文章推荐： javascript - highchart折线图最后一个空值不与折线连接

文章推荐： javascript - 如何从特定位置读取 JSON

文章推荐： javascript - 使用对象数组填充 Highcharts 线

java - 仅匹配 "somethingendofline"而不是 "something"
我有一个模式来匹配类似的东西 ... 1036 ... 但是我不想匹配 1036 因为会抓 1036 但无论如何我不想捕获双倍跨度，因为我不需要这些数据。我需要跨度和行尾之间的数据。我在跨度的末尾尝
javascript - 如何使用正则表达式匹配字符串
regular表达式

如何使用正则表达式来匹配该字符串: regularexpression . 如何交换第一个跨度的内容和第二个跨度的内容。我认为可以使用jquery源码。最佳答案请务必阅读 RegEx match
javascript - 选择 auf
我正在测试一个指令，该指令会在 200 个字符后 chop 文本。它改变了这一点: 对此: long text long text long text long text long
c# - 如何使用正则表达式在和以及和之间创建任何内容的数组？
我有代码将这个字符串解析成一个字符数组: var textArray = Regex.Replace(text, @"]*|/)?>", String.Empty).Trim().ToCharA
python - 美丽汤 :
TEXT I WANT
我正在尝试使用 BeautifulSoup 提取包含在 id="titleDescription"范围内的字符串。 Customer Choice Award Winner
javascript - 如何使用 javascript 将
Hello
拆分为 Hello
如何分割Hello至 Hello使用javascript var text = "Hello"; 记住:我不知道什么包含 , 我不知道有没有属性我找到了答案! var patt=/^(.*)$/i
java - 如何将 "span " 添加到 arraylist 中的每个单词？
我有一个数组列表 ArrayList al = new ArrayList(); al.add("tree good has"); al.add("ok go by"); al.add
css - 标签和在 .css 中使用 span 有什么区别？
我有一个使用 span 的 html 文件关键字以两种不同的方式。第一个在第二个定义中 button.groovyButton span这里: button.groovyButton { b
css - CSS 的与的区别？
仍在尝试让新站点的导航控件按照我想要的方式工作。我将我的问题简化为这段代码: Test span { display: inline-block; heigh
javascript - NG-bind 不适用于 "
This is 城市。它因而闻名。
”
我是编码新手在下面的 pgm 中，任何人都可以帮我找出为什么 ng-bind 不起作用吗？提前致谢。 Angular js Welocme!Please enter valu
python - 网络抓取 python 2, 2
我必须在下面的 html 代码中提取文本内容以进行 python 网络抓取，问题是类参数，所有三个变量都具有相同的类参数，所以我尝试使用 arial-label，但它不起作用。 2， 3 Proper
javascript - 我们如何用一组单词填充一组？
如何填充一组带有一个带有循环的单词数组？如果数组包含[ "one", "two", "three" ]并被称为“wordarray” 然后我想填充跨度，使其看起来像 one two
jquery - 如何使用 css 或 jquery 覆盖 div [span in a span ] 中 span 的特定样式？
如果我们有 div 并且没有跨度，即一个跨度中的跨度，并且每个跨度都有一种颜色样式，如何使用 css 或 jquery 覆盖特定样式[颜色]..。请帮助我最佳答案你的意思是这样的吗？ red bl
html - 为什么我的 CSS 选择器 "body div span a"匹配 "
"
我以为下面的选择器只会匹配example b。有人可以向我解释一下 CSS 路径的工作原理吗？ body div span a{ background:#000; color:#fff
javascript - 使用正则表达式删除文本中的和
我正在尝试获取内可用的文本元素。我已经使用innerHTML来检索内部文本，但很少元素内部文本放置在内元素。在检索文本值时，将其获取为 sample text作为输出字符串。谁能帮我删除在输出
javascript - 动态添加一些，将内容移出容器
我应该加上“n” (显示“n”flaticon-icons)到一个div(我的页面是.php) 这是 div 这是 div_icon CSS 类 @media (max-width: 600px
python - 无法获取文本
无法获取“表格”中的跨度文本，谢谢! from bs4 import BeautifulSoup import urllib2 url1 = "url" content1 = urllib2.urlo
html - span 将相邻的 span 向下推
这个问题在这里已经有了答案: My inline-block elements are not lining up properly (5 个答案) 关闭 8 年前。 HTML $ 400 这会在同
javascript - 在另一个 span 标签内的图像底部插入 span
我正在尽力在图像中插入 span 标签标题。两者都在段落和 span 标签内。如何让 lorem ipsum 文本作为标题出现在图像的底部？？ Lorem ipsum dolor
html - 和标签之间的空格不显示
我有以下 HTML 文件。 "| Testing" 我要打印 "| Testing" , 而不是打印这个打印 "| Testing" .所有这

首页

博学

6Ren·AI

商城

python - 如何使用 BeautifulSoup 从嵌套在
中的中提取文本，而
嵌套在
中？

首页

博学

6Ren·AI

商城

python - 如何使用 BeautifulSoup 从嵌套在 中的 中提取文本，而 嵌套在 中？

python - 如何使用 BeautifulSoup 从嵌套在
中的中提取文本，而
嵌套在
中？