python - 剥离 Html 标签 Findall + Beautiful Soup-6ren

python - 剥离 Html 标签 Findall + Beautiful Soup

转载作者：太空宇宙更新时间：2023-11-03 14:55:45

25

4

好吧，我已经搜索了大约 2 个小时，我相信我的大脑可能已经烧坏了。今天是我使用 BeautifulSoup 的第一天(所以请温柔一些)。我正在抓取的网站的源代码的格式如下:

<a href="/listing/view" class="price">$100</a>

我觉得很愚蠢，因为我在写入文件时得到了整个 a 标签，并且我偷偷怀疑有一个如此简单的解决方案，但我似乎找不到它。

目前我正在使用以下内容:

soup = BeautifulSoup(page.content, 'html.parser')
prices = soup.find_all(class_="price")
passed.append(prices)

如何才能仅定位特定标签之间具有匹配类的内容？

最佳答案

prices = soup.find_all(class_="price")

for a in prices:
  passed.append(int(a.text.strip().replace('$','')) # will append to the list

这应该有帮助。

关于python - 剥离 Html 标签 Findall + Beautiful Soup，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45598443/

25

4

0

文章推荐： python - 提取多行 int 对象的第一个元素

文章推荐： java - HTTPs HTTPURLConnection 问题

文章推荐： redirect - 阻止附加域的 SSL

文章推荐： python - 使用 Python 自然语言工具包阅读孟加拉语

C# 剥离/转换一个或多个字符
有没有一种快速的方法(无需显式循环遍历字符串中的每个字符)并剥离或保留它。在 Visual FoxPro 中，有一个函数 CHRTRAN() 可以很好地完成这项工作。它是 1:1 字符替换，但如果替换
python - 剥离/修剪数据帧的所有字符串
在 python/pandas 中清理多类型数据框的值，我想修剪字符串。我目前正在按照两个说明进行操作: import pandas as pd df = pd.DataFrame([[' a '
haskell - 剥离 newtype 构造函数
通常情况下，我正在编写剥离新类型的唯一构造函数的函数，例如在以下函数中返回不是 Nothing 的第一个参数: process (Pick xs) = (\(First x) -> x) . mcon
android - 剥离 AOSP 的预安装包的最优雅方式是什么？
我正在尝试逐渐将 AOSP 从其默认应用程序中剔除。但是我想知道我要应用的方法是否是正确并且是最有效 . 在查看了这样做的方法后，我来到了以下方法: (示例应用程序 - “package_name
mercurial - 剥离 Mercurial 日期
使用时 hg log --template "{date|isodate} --- {rev}:{node|short} --- ... " 2011-10-07 19:25 -0400 --- 1:
coldfusion - 剥离 html 以换行符分隔的列表结束
我想在 mySQL 中创建数据库位置记录。我在选择框中有以下 html 字符串: Aka AkaArarimuAwhituBombayBuckland '> 我不想在数据库中手动输入记录，而是想去掉
java - 内部类中的方法被 proguard 剥离
我目前正在开发一个 Android 项目，其中我使用 Android NDK 用 C 语言进行一些计算。只要我不运行 proguard，我的应用程序就可以正常工作，但是当我运行时，“reportPr
jQuery 剥离 HTML 所有表单
我想要一个通用的 .js 文件，对于页面上遇到的每个 form，在提交时，它会从所有 textarea、中删除 HTML input 和 select 元素。我觉得我缺少一个基本技巧。 $("for
python - 剥离 unicode 文本中非字符的内容
我正在尝试编写一个简单的 Python 脚本，它将文本文件作为输入，删除每个非文字字符，并将输出写入另一个文件中。通常我会采取两种方式: 使用正则表达式结合 re.sub 将每个非字母字符替换为空字符
c# - HTMLAgilityPack 剥离 html
我敢肯定这个问题以前有人问过，但我已经看过了，但找不到答案，或者我只是做错了什么。 HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.Htm
JavaScript:剥离 HTML 实体但保留图像标签？
我有这行代码: var newmsg = $('' + ""+dateFormat(timesp)+ " | " + pseudo + ' : '); newmsg.find(".msg").text
windows - 剥离 Windows 路径前缀
我正在尝试从 Windows 路径中删除前缀。我尝试使用 strip_prefix 来做到这一点方法，但它失败了。您可以在 Rust Playground 上试用.即使在 RUST_BACKTRACE
PHP 剥离 MySQL 回显列
使用这个 question ，我正在试验 substr 和 strrpos，但似乎无法正确处理。我有一个来自 MySQL 数据库的名称列，其中包含名字和姓氏，如下所示: Doe, Jane A 现有
python - 剥离 URL - Python
好的，我如何使用正则表达式删除 http AND/OR www 只是为了让 http://www.domain.com/ 进入 domain.com 假设 x 是任何类型的 TLD 或 cTLD 输入
python - 剥离 xpath 中的附加项
我正在尝试从 this website 中抓取项目. 项目是:品牌、型号和价格。由于页面结构的复杂性，spider 使用了 2 个 xpath 选择器。品牌和型号商品来自同一个 xpath，价格来自
html - 剥离 html 文档中所有不必要的属性
这个问题在这里已经有了答案: 关闭 11 年前。
python - 剥离 html 标签之间的空间
我有一个包含一些 html 标签的字符串，如下所示: " This is a test " 我想去掉标签之间的所有多余空格。我尝试了以下方法: In [1]: import re In [
Python 剥离 url 并替换正斜杠
我目前有一个 URL 列表 http://www.website.com/dynamic/download.ashx?id=123/12/12345 http://www.website.com/dy
python - 剥离 numpy 数组中的空格
我环顾四周，找不到一种简单/单行的方法来去除 numpy 数组中的空格:: print(type(p)) print(p) [{' SPL', 'GPU', 'bcc'} {'ANZ ', 'ROI
Sharepoint 剥离 HTTP header
我有一个自定义共享点应用程序，其安全模型取决于 HTTP header 。当从移动设备发出请求时，每个请求都会添加一个名为 HTTP_RIM_DEVICE_EMAIL 的 http header 。我

首页

博学

6Ren·AI

商城

python - 剥离 Html 标签 Findall + Beautiful Soup