gpt4 book ai didi

java - Apache 坚果 : Manipulating the DOM before parsing

转载 作者:行者123 更新时间:2023-12-02 00:32:49 25 4
gpt4 key购买 nike

我想在页面响应被处理之前删除特定元素。具体来说,我想用 i.e. 标记页面的某些部分

 <div class="noindex">I shall not be indexed</div>

并希望在 Nutch 解析之前删除它们,以便之后的 NutchDocument 中不会出现“我不会被索引”的情况。我计划用它来包围我的导航、页眉、页脚内容,因为现在它们存在于索引中的每个文档中。

谢谢,保罗

最佳答案

你有一些替代方法可以做到这一点:

关于java - Apache 坚果 : Manipulating the DOM before parsing,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8576735/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com