gpt4 book ai didi

java - 使用jsoup java检测网页中的相同标签模式

转载 作者:行者123 更新时间:2023-11-30 07:36:31 24 4
gpt4 key购买 nike

我正在编写一段代码来检测网页中匹配的标签模式。这是一个例子。

<body>
<table width="200" border="1">
<tr>
<td>Name</td>
<td>Place</td>
<td>Animal</td>
</tr>
<p>hello World</p>
<tr>
<td>Jack</td>
<td>New york</td>
<td>Lion</td>
</tr>
<b>Code Works</b>
<tr>
<td>George</td>
<td>Sydney</td>
<td>Tiger</td>
</tr>
<tr>
<td>Tina</td>
<td>Delhi</td>
<td>Cat</td>
</tr>
</table>
<table>
<tbody>
<tr>
<td> </td>
<td>
<a href="/cgi-bin/site_searcher.cgi?START=20&amp;SEARCHTERM=asia&amp;SID=&amp;SEARCH=1&amp;BOOLEAN=&amp;CAT=">1</a>
<a href="/cgi-bin/site_searcher.cgi?START=20&amp;SEARCHTERM=asia&amp;SID=&amp;SEARCH=1&amp;BOOLEAN=&amp;CAT=">2</a>
<a href="/cgi-bin/site_searcher.cgi?START=40&amp;SEARCHTERM=asia&amp;SID=&amp;SEARCH=1&amp;BOOLEAN=&amp;CAT=">3</a>
<a href="/cgi-bin/site_searcher.cgi?START=60&amp;SEARCHTERM=asia&amp;SID=&amp;SEARCH=1&amp;BOOLEAN=&amp;CAT=">4</a>
<a href="/cgi-bin/site_searcher.cgi?START=80&amp;SEARCHTERM=asia&amp;SID=&amp;SEARCH=1&amp;BOOLEAN=&amp;CAT=">5</a>
</td>
</tr>
</tbody>
</table>
</body>

对于上述标签模式,我需要找到重复出现的标签。并丢弃那些不在模式中的标签,例如标签 bp。对于第一个表标签 tr 和 td 正在发生。对于第二个表,重复“a”标签。这就是我到目前为止所做的:

  1. 使用 Jsoup 解析为 DOM 树。
  2. 然后使用节点访问者类来遍历树。使用 head 和 tail 方法,我可以输入和退出标签。

但我对如何进一步进行感到困惑。注意:标签模式不是固定的。标签模式会根据网页结构而变化。任何形式的帮助将不胜感激。

最佳答案

But I am confused about how to proceed further.

您的困惑正在传播并影响到我们。不过,我会尽力给你一个提示。

您可以对 HTML 代码中的标签进行计数。如果某个标签计数达到一定阈值,您可以将该标签视为“重复出现”。

// Load document
String html = ...
Document doc = Jsoup.parse(html);

// Count tags
String tagsSelector = "*";
Map<Element, Integer> tagsCountByType = new Hashmap<>();
for(Element e : doc.select("*")) {
Integer count = tagsCountByType.get(e);
if (count == null) {
tagsCountByType.put(e, new Integer(1));
} else {
tagsCountByType.put(e, new Integer(count.intValue() + 1));
}
}

// Find tag with a count greater than a given threshold
// ...

我没有测试代码。只是把它当作一个想法,某种灵感。

另一个想法,您可以缩小tagsSelector的范围。例如:

// All elements (tags) under any table directly under body.
String tagsSelector = "body > table *";

关于java - 使用jsoup java检测网页中的相同标签模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35321425/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com