html - 拒绝 BeautifulSoup 中的一些 HTML 标签-6ren

html - 拒绝 BeautifulSoup 中的一些 HTML 标签

转载作者：太空宇宙更新时间：2023-11-04 04:10:49

25

4

我知道这可能很简单，但我找不到正确的方法来处理它。我有一个 HTML 文档，我想提取其内容。本文档正文为:

<div class="articleContent">
        <div class="dateblock">
            <div class="textsize">
                <span class="textsize_label">
                    Font Size</span> <a href="javascript:decreaseFontSize();"
                        title="Increase font-size" class="txtsizeminus"><span>-</span></a> <a href="javascript:increaseFontSize();"
                            title="Increase font-size" class="txtsizeplus"><span>+</span></a>
            </div>

            <p class="article_date">
                Last Update: date
            </p>
        </div>
        <div id="ctl00_ctl00_cpAB_cp1_cbcContentBreak">
<div class="zoomMe">
        <P>The Content is here</p>
</div>

我想要的是文档的内容，而不是“字体大小”和“上次更新”等其他信息。但由于所有这些信息都是“articleContent”的子项，我不知道如何摆脱它们。我必须注意，由于这些附加信息可能会从一个文档更改为另一个文档，因此我无法使用简单的正则表达式将它们从最终字符串中删除。我必须在处理 HTML 文件时将它们过滤掉。我必须补充一点，我正在使用以下命令来提取文档的这一部分及其内容:

body = soup.find("div", {"class":"articleContent"})
pars= [s for s in body.strings if s.strip() != '']

那么，问题是如何避免在“pars”数组中包含这些附加信息？

有什么想法吗？谢谢

最佳答案

您是否尝试过只查找您想要的特定标签？

desired_div = soup.find("div", attrs={"class": "zoomMe"})
print(desired_div.text)

关于html - 拒绝 BeautifulSoup 中的一些 HTML 标签，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19165406/

25

4

0

文章推荐： c - 删除第一个数字时出现段错误

文章推荐： css - 悬停 jquery - 影响 DIV 类的 NAVbar CSS

文章推荐： c - ARM ASM : Bad Instruction end

文章推荐： css - 在父元素上使用转换时的 Chrome 文本渲染

apache - htaccess "order"拒绝、允许、拒绝
我只想允许一个国家/地区访问，但排除该国家/地区内的代理。这就是我所拥有的(为了方便起见，缩短了版本) order deny,allow deny from all allow from 139.
angular - 拒绝 Angular 2 中的 Promise 时未处理的 Promise 拒绝
这个问题在这里已经有了答案: What is an unhandled promise rejection? (9 个回答) 关闭 4 年前。我目前正在尝试实现我自己的 Promise，以便在 A
git push origin 被 fallthru 拒绝，hook 拒绝 : gitolite
我在使用 Gitolite 推送 git 时遇到问题。当我尝试这个时: git push origin :refs/tags/deployment 我收到这个错误: remote: D NAME/i
php - PDO 连接被 laravel 拒绝，但不被 $con = new PDO() 拒绝
我已经为我的 laravel 5.0-dev 项目配置了 mysql，如下所示: 'mysql' => [ 'driver' => 'mysql', 'host' =>
node.js - 未处理的 promise 拒绝(拒绝 ID : 1): Error: kill ESRCH
我对 Web 和 SOF 进行了一些研究，但发现对于该错误没有任何真正的帮助。我使用 Windows 10 Ubuntu Bash 安装了 Node 和 Puppeteer，但未能使其工作，但我设法
ios - 使用Facebook的iOS应用程序-拒绝
在我的应用审核期间，我收到了以下信息: “17.2:要求用户共享个人信息(例如电子邮件地址和生日)才能正常运行的应用将被拒绝具体来说，您的应用仅使用Facebook登录名进行身份验证，但不包括该网站
EMV 离线批准/拒绝
我正在开发 VeriFone VX 终端的接口(interface)。虽然，这确实是一个普遍的 EMV 问题。我们的处理器的下限为零，因此它将始终在线发送。但是，如果它发生变化，您如何知道(哪些标签)
javascript - 谷歌脚本电子邮件表单接受/拒绝
我编写了一些宏代码，根据表单提交向经理发送电子邮件(用于费用/审批流程)，这是我使用谷歌表单/电子表格的第一个项目，所以也许我可能会错过一些简单的东西，但我为此浏览了 2 个教程，我的代码与重要的部分
c++ - 为什么代码被clang接受而被vc++拒绝？
clang 3.4 接受以下代码；而 vc++ NOV 2013 CTP 拒绝它并出现错误: error C2668: 'AreEqual' : ambiguous call to overloade
nginx 允许|拒绝 $realip_remote_addr
使用 nginx，您可以允许和拒绝范围和 ips (https://www.nginx.com/resources/admin-guide/restricting-access/)。使用realip模
TCP 连接被 FFMPEG 拒绝
官方编辑: 非常感谢您的帮助，但我仍然遇到问题。我的 ffserver.conf 文件是这样的: # Port on which the server is listening. You must
bash - 拒绝 sudo 用户访问特定文件夹
我有一个问题:我是 Ubuntu 系统的根。我想授予用户(比如用户名是 X)执行任何命令的权限，但同时我有一个文件夹，除了我的用户(当然不是 X，因为它是 Admin ) 或根。有什么建议么？谢谢!
Apache 拒绝但允许子位置
我使用 Apache2.2 作为 tomcat 服务器的前端。我想限制对某个位置的访问，但允许对子位置的所有访问，但遇到了一些麻烦。我目前拥有的是: AllowOverride None
ssl - 拒绝 IIS 中的所有客户端证书
就像 this person ，我一直在为浏览器缓存 SSL session 而苦苦挣扎。简而言之，如果选择了客户端证书，则无法以编程方式清除状态，除非在 IE 中使用 document.execCo
AngularJs 网站被 Adsense 拒绝
我的网站是在由 Apache 服务器提供服务的 Angular 上设置的。我通过 View 将内容动态加载到主页上。现在以下是我的问题: 我建立这个网站的主要目的是通过 google adsense
Android:应用程序因后台位置而被 Google 拒绝
我最近遇到了我的应用程序的问题，当它突然被 Google Play 拒绝时因为他们发现我使用的是背景位置 .但实际上我并没有使用这个功能。我只有 ACCESS_COARSE_LOCATION和 ACC
javascript - 无法处理 promise 拒绝
function sendPushNotification(subscription, urlEncodedData){ try { webpush.sendNotification(su
javascript - 即使我确实处理了未处理的 promise 拒绝
我包裹了一个 request-promise-native调用返回 promise 的函数。 import request from 'request-promise-native'; functio
javascript - Meteor 如何调试允许/拒绝
我正在开发我的 meteor 项目，并开始设置我的第一个更复杂的允许/拒绝规则。我发现很难看出哪些允许触发，哪些不允许触发，以及这些函数中的某些变量包含什么。例如: List.allow({ u
AngularJS:返回 promise 拒绝
我正在 AngularJS 中创建一个 Factory，它是这样的: if (href) { return $http({ method: method, url: item.href });

首页

博学

6Ren·AI

商城

html - 拒绝 BeautifulSoup 中的一些 HTML 标签