gpt4 book ai didi

java - 使用 Jsoup 提取和解析 HTML 表格

转载 作者:行者123 更新时间:2023-11-28 04:12:48 26 4
gpt4 key购买 nike

我如何使用 Jsoup 从 this website 中提取规范数据?分别为每一行,例如网络->网络类型、电池等

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class mobilereviews {
public static void main(String[] args) throws Exception {
Document doc = Jsoup.connect("http://mobilereviews.net/details-for-Motorola%20L7.htm").get();
for (Element table : doc.select("table")) {
for (Element row : table.select("tr")) {
Elements tds = row.select("td");
System.out.println(tds.get(0).text());
}
}
}
}

最佳答案

这是为您的问题找到解决方案的尝试

Document doc = Jsoup.connect("http://mobilereviews.net/details-for-Motorola%20L7.htm").get();

for (Element table : doc.select("table[id=phone_details]")) {
for (Element row : table.select("tr:gt(2)")) {
Elements tds = row.select("td:not([rowspan])");
System.out.println(tds.get(0).text() + "->" + tds.get(1).text());
}
}

解析 HTML 很棘手,如果 HTML 更改,您的代码也需要更改。

您需要先研究 HTML 标记以得出您的解析规则。

  • HTML 中有多个表格,因此您首先要过滤正确的表格 table[id=phone_details]
  • 前 2 行表格仅包含格式化标记,因此请跳过它们 tr:gt(2)
  • 每隔一行以内容类型的全局描述开始,将其过滤掉td:not([rowspan])

有关选择器语法中更复杂的选项,请查看此处 http://jsoup.org/cookbook/extracting-data/selector-syntax

关于java - 使用 Jsoup 提取和解析 HTML 表格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15853002/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com