python - Beautiful Soup - 选择没有类的下一个跨度元素的文本-6ren

python - Beautiful Soup - 选择没有类的下一个跨度元素的文本

转载作者：行者123 更新时间：2023-12-01 02:33:08

25

4

我正在尝试使用 Beautiful Soup 从 rottentomatoes.com 上抓取电影台词。页面源代码很有趣，因为引用直接由跨度类“bold quote_actor”进行，但引用本身位于没有类的跨度中，例如(https://www.rottentomatoes.com/m/happy_gilmore/quotes/): screenshot of web source

我想使用 Beautiful Soup 的 find_all 来捕获所有引用，但不包含 Actor 的名字。我尝试了很多事情但没有成功，例如:

moviequotes = soup(input)
for t in web_soup.findAll('span', {'class':'bold quote_actor'}):
    for item in t.parent.next_siblings:
        if isinstance(item, Tag):
            if 'class' in item.attrs and 'name' in item.attrs['class']:
                break
            print (item)

我将非常感谢有关如何导航此代码并将生成的纯文本引号定义到我与 Pandas 等一起使用的对象中的提示。

最佳答案

我使用 CSS 选择器来查找包含引号的 span:div span + span。这会查找 div 内且具有 span 类型的直接同级元素的任何 span 元素。

这样我还可以获得包含 Actor 名称的 span ，因此我通过检查它们是否具有 class 或 style 来过滤它们> 属性。

import bs4
import requests

url  = 'https://www.rottentomatoes.com/m/happy_gilmore/quotes/'
page = requests.get(url).text
soup = bs4.BeautifulSoup(page, 'lxml')

# CSS selector
selector = 'div span + span'

# find all the span elements which are a descendant of a div element
# and are a direct sibling of another span element 
quotes = soup.select(selector)

# now filter out the elements with actor names
data = []

for q in quotes:
    # only keep elements that don't have a class or style attribute
    if not (q.has_attr('class') or q.has_attr('style')):
        data.append(q)

for d in data:
    print(d.text)

关于python - Beautiful Soup - 选择没有类的下一个跨度元素的文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46564716/

25

4

0

文章推荐： javascript - 如何在 jQuery 中设置表格中文本输入的值？

文章推荐： javascript - D3 将鼠标位置反转为 X 轴上最接近的刻度值

html - 跨度、输入、跨度 100% 宽度 CSS 问题
这就是我现在正在做的事情。我在设计中使用 LESS CSS。我需要在指定输入之间放置 2 个跨度。所有元素的宽度都应为 100%。跨度应始终为 20px 宽度输入宽度可以根据屏幕宽度进行更改。谁能帮帮
html - 跨度/格内的奇数对齐
我有一个包含文本和输入字段的跨度。我想知道是否可以让文本左对齐，输入字段右对齐。 NAME: .textBox{ display:inline-block; width:450px
html - Angular 跨度
我有这个按钮，我想让它在我点击“选择”时调用方法，在我点击“更改”时调用另一个方法: Select Change 我尝试输入 (click)="method()"，但没有成功。我很
javascript - 无法在表情符号后输入文字(跨度)
我正在开发聊天应用程序 (cordova)，当我要在无法输入的表情符号后输入文本时，我在这段代码中遇到了问题 https://output.jsbin.com/radaref This i
链接中的 CSS 跨度
很抱歉，如果这是一个非常愚蠢的问题，但我是一名开发人员，目前我的设计技能很少，我在个人网站上工作并且遇到了一个小问题。我有一个带 ul 的顶部导航和 li元素。这些元素包含链接 . 跨度仅在链接悬
html - 证明两列布局(跨度)
fiddle :https://jsfiddle.net/burz4g8s/4/ 我的 HTML 包含多行双按钮对。服务器端应用程序在 JSP 循环中输出按钮，所以我无法控制各个按钮——我不能使用 d
android - 设置字母间距的字符样式/跨度
TextView.setLetterSpacing允许设置字母间距/字符间距。有没有对应的CharacterStyle / span class允许在 TextView? 中的文本子集上设置字母间距
layout - QML GridLayout 跨度
如何使洋红色矩形比红色矩形短 6 倍？ GridLayout { id: gridLayout anchors.fill: parent flo
twitter-bootstrap - Bootstrap 跨度
我最近开始使用 Twitter Bootstrap，但我似乎无法理解 span 的作用以及为什么会有不同的编号 span，例如 span4、span12？什么是偏移量以及它们何时使用？ (有时与跨度一
javascript - 跨度 jQuery 的总和
我正在尝试构建一个 jQuery 函数来计算跨度中的总数 var sumnormaltotal = 0; $('span[id^="normaloffertotalspan"]').each(func
Haskell - 跨度 elem : evaluation
我想知道haskell如何评估以下表达式。 span (`elem` ['A'..'Z']) "BOBsidneyMORGANeddy" 结果是 ("BOB","sidneyMORGANeddy")
javascript - 第一个空格后的 jquery 跨度
我有三个词，我想在第一个空格之后的内容周围添加一个跨度，所以 hello world 变成: hello world 和: hello world again 变成: hello world agai
css - 文本缩进一个包装的行内 block 跨度
我正在寻找纯 CSS 解决以下问题的方法。考虑以下 HTML: Some text Some text 两者都是正在显示元素 inline-block .如何在第二个的左侧
html - 容器底部定位 float 跨度
如何将 Span 放置在其容器的底部？我目前拥有的:http://jsfiddle.net/wRbax/2/ 我希望 .box 始终位于 .td 的底部 CSS .td { vertical
html - 有序列表中的 float 跨度
我试图在 li 中 float 两个 span。左跨度将有我的标签，在右跨度内我将构建一个具有嵌套跨度的图形。我有基本结构，但 chrome 将数字放在左侧跨度的末尾。我该如何解决这个问题？ HTML
javascript - 如何在文本编辑器中换行(跨度)单词
我有一个像这样的 JavaScript 变量: var text = "A businessman should be able to manage his business matters"; 我想
html - 重叠的 contenteditable 跨度
一些内容可编辑的框与其他框重叠，因此并非所有框都是可编辑的。我想保留与跨度位置中心对齐的文本，如下所示。我如何实现这一点？ span { margin: auto; text-alig
Firefox 和 contentEditable 跨度
我正在使用 WYSIWYG (InnovaEditor) 来编辑我网站上的内容，它适用于 Chrome、IE，主要适用于 Firefox，但 FF 有一个稍微令人讨厌的问题。我将 span 标签插入到
css - 跨度，额外 margin
这是我的 html: Settings Export Import 和CSS: span.button { float:right; margin-righ
css - 跨度 split ，如何避免？
这里是问题所在:http://jsfiddle.net/STG22/3/ 我希望 span 不会分成两个不同的行(就像上面示例中的第三行一样)。我该怎么做？ CSS: span { backg

首页

博学

6Ren·AI

商城

python - Beautiful Soup - 选择没有类的下一个跨度元素的文本