- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在尝试使用 .replaceWith 替换长 html 网站中的一些元素(类:方法)。为此,我使用 .descendants 并迭代它们以检查 dl 元素是否是我正在寻找的内容。但这仅适用于 0<= X <= 2 个彼此相邻的元素。一行中的每第 3 个到第 n 个元素都被“忽略”。执行相同的代码两次会导致连续 4 个被替换的 dl 元素,依此类推。
for elem in matches:
for child in elem.descendants:
if not isinstance(child, NavigableString) and child.dl is not None and 'method' in child.dl.get('class'):
text = "<p>***removed something here***</p>"
child.dl.replaceWith(BeautifulSoup(text))
(非常愚蠢的)解决方案是找到一行中最大的 dl 元素,将其除以二并经常执行。我希望为此获得一个智能(且快速)的解决方案,并且(更重要的是)了解这里出了什么问题。
编辑:用于测试的html网站是这个:https://docs.python.org/3/library/stdtypes.html错误可以在第4.7.1章字符串方法中看到(那里有很多方法可用)
EDIT_2:但我不仅使用该 html 网站,还使用其中的一部分。 html 部分存储在一个列表中,如果 dl 元素不是第一个 html 元素,我只想“删除”它们(所以如果它是头元素,我想保留该元素)。
总的来说,这就是我的代码的实际外观:
from bs4 import BeautifulSoup, NavigableString
soup = BeautifulSoup(open("/home/sven/Bachelorarbeit/python-doc-extractor-for-cado/extractor-application/index.html"))
f = open('test.html','w') #needs to exist
f.truncate
matches=[]
dl_elems = soup.find_all(['dl'], attrs={'class': ['class', 'method','function','describe', 'classmethod', 'staticmethod']}) # grab all possible dl-elements
sections = soup.find_all(['div'], attrs = {'class':'section'}) #grab all section-elements
matches = dl_elems + sections #merge the lists to get all results
for elem in matches:
for child in elem.descendants:
if not isinstance(child, NavigableString) and child.dl is not None and 'method' in child.dl.get('class'):
text = "<p>***removed something here***</p>"
child.dl.replaceWith(BeautifulSoup(text))
print(matches,file=f)
f.close()
最佳答案
这个想法是找到所有具有 class="method"
的 dl
元素,并将它们替换为 p
标记:
import urllib2
from bs4 import BeautifulSoup, Tag
# get the html
url = "https://docs.python.org/3/library/stdtypes.html"
soup = BeautifulSoup(urllib2.urlopen(url))
# replace all `dl` elements with `method` class
for elem in soup('dl', class_='method'):
tag = Tag(name='p')
tag.string = '***removed something here***'
elem.replace_with(tag)
print soup.prettify()
UPD(适应问题编辑):
dl_elems = soup.find_all(['dl'], attrs={'class': ['class', 'method','function','describe', 'classmethod', 'staticmethod']}) # grab all possible dl-elements
sections = soup.find_all(['div'], attrs={'class': 'section'}) #grab all section-elements
for parent in dl_elems + sections:
for elem in parent.find_all('dl', {'class': 'method'}):
tag = Tag(name='p')
tag.string = '***removed something here***'
elem.replace_with(tag)
print dl_elems + sections
关于python - BeautifulSoup 中的 .descendants 似乎没有按预期工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23230129/
谁能帮我解决这个问题?我有一个 Tomcat 和简单的 JSF 应用程序:https://github.com/gooamoko/jsfbilling/ .当我在 Tomcat 上运行应用程序时,它运
我有两个这样的域类,第一个是 Manager : package com.mnm class Manager { String name; static hasMany = [ pro
当我运行以下代码时,打印输出似乎不正确。 void thread_Calc(int *pos) { printf("recieved %d\n", *pos); sig = -1; man
这个问题在这里已经有了答案: How to access a local variable from a different function using pointers? (10 个答案) 关闭
我编写了一个程序,其中列表构建器方法返回 IEnumerable of string,其中包括大量字符串(100 万个项目),我将其存储在 List of string 中,然后它将所有项目附加到 中
我正在尝试编写一个 IRC 类型的聊天客户端,它具有可以连接到服务器的客户端。我试图让它在本地 atm 上工作(使用 FIFOS 而不是套接字)。 我遇到了以下我似乎无法解决的问题: 接受新的客户端连
我的一个 cronjobs 每天发送一封电子邮件 35 6 * * * cd $EZPUBLISHROOT && $PHP runcronjobs.php -q 2>&1 我停止使用 cron sud
我使用 WPF 打印路径来处理在我们的应用程序中创建的大型图表。整个图表由视觉效果组成。 所谓的“DesignerPaginator”对图表进行分页(非常简单)。 从这一点来说,我做了以下三件事: -
我尝试在更新之前跟踪系统应用程序并使用: public static boolean isSystemApplication(Context ctx, IContent content) {
我在这里附上了一个查询分析结果,https://explain.depesz.com/s/x9BN 这是查询 EXPLAIN ANALYZE SELECT branche
我正在做一个 CXF(spring) 项目 (HUB)。部署后,我可以看到肥皂和休息服务列表,我通过两个地址打开它。一种是使用本地主机,第二种是使用我电脑的 ip。所以我得到了这些输出。 使用本地主机
这是一个 AnyHashable 不支持枚举转换的简单案例。 enum testEnum: String { case Test } let myObject: AnyHashable = t
我的主要目标是比较存储在数据库和 XLSX 文件中的数据。 为此,我按以下方式创建了两个列表: private class ProductList { public string produc
我从 CMake 3.6 更新到任何最新版本 (3.12.0-rc2),现在我的一个程序无法编译。 奇怪的是,错误消息显示了标准库本身中的 undefined symbol 。这是错误消息: Unde
我希望将我的自定义对话框动画化为从特定点出现,但我无法为对话框设置动画。 该对话框是一个基本的 RelativeLayout,设置为 extends Dialog 类中的布局。 正如这里的一些答案所建
我已经在这个论坛上调查过很多类似的问题,但似乎没有一个能解决我的问题。 我会在底部列出我在这个论坛上看到的一些问题页面,但让我先谈谈我对这个问题的看法。 我正在使用 codeigniter v 2.x
我正在尝试在 RHEL 7 上启动一个 docker-compose 项目作为 systemd 服务。这是我的 systemd 脚本 (/etc/systemd/system/wp.service):
这个问题已经有答案了: "Notice: Undefined variable", "Notice: Undefined index", "Warning: Undefined array key",
我正在尝试在 RHEL 7 上启动一个 docker-compose 项目作为 systemd 服务。这是我的 systemd 脚本 (/etc/systemd/system/wp.service):
此问题出现在my last question here之后。我想将每个按钮聚焦和失去焦点背景设置为主菜单(ContentPane 即 JPanel)下方的背景颜色,因此按钮看起来像选项卡。它在不同的环
我是一名优秀的程序员,十分优秀!