gpt4 book ai didi

javascript - 使用 Cheerio 进行网页抓取 : Deleting or ignoring a child element?

转载 作者:行者123 更新时间:2023-12-03 05:24:31 25 4
gpt4 key购买 nike

所以我有一个想要抓取的网站,结构如下:

<p><strong>some headline:</strong> some content etc. blabla </p>

<p><strong>some other headline:</strong> some more content etc. blabla </p>
// and so on...

我用cheerio刮它,如下:

$('p strong').each(function(i, element){
console.log($(this).text());
//gets me the headline

console.log("Parent:" + $(this).parent().text());
//gets me the content, but unfortunately, also the headline again
});

目前,我只是记录所有内容,但稍后我想将标题和内容保存在单独的变量中。但是,由于标题(可在 <strong> 标签中找到)也是 <p> 的一部分。标签,我的第二个命令(它只打算获取内容,没有标题,因为我已经捕获了)不仅获取内容,还再次获取标题。如何分离或删除 <strong> 中的所有内容标签,然后将其余所有内容保存在 <p> 中标签,即只有内容?

最佳答案

删除标题元素可能是最简单的:

$('p strong').each(function(i, element){
var $this = $(this);
var headline = $this.text(); // Get headline text
var parent = $this.parent(); // Get parent
$this.remove(); // Remove headline element
var body = parent.text(); // Get body text
// ...
});

关于javascript - 使用 Cheerio 进行网页抓取 : Deleting or ignoring a child element?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41208256/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com