gpt4 book ai didi

java - 如何从特定网站提取 HTML 表到外部 HTML 文件?

转载 作者:行者123 更新时间:2023-12-02 04:48:07 25 4
gpt4 key购买 nike

我被要求编写一个应用程序,该应用程序将从给定的 URL https://www.ote-cr.cz/en/statistics/electricity-imbalances-1 仅下载主表(标记为 report_table)并将其存储在单独的 HTML 文件中。

我已成功下载表格的内容,但是,我无法按照要求正确设置其样式。这是我的代码:

    Document doc = Jsoup.connect(url).get();

System.out.println(doc);
Element tableElement = doc.select("table.table.report_table").first();

Elements tableHeaderElements = tableElement.select("thead tr th");
System.out.println("headers");

for (int i = 0; i < tableHeaderElements.size(); i++) {
System.out.println(tableHeaderElements.get(i).text());
writer.append(tableHeaderElements.get(i).text());

if (i != tableHeaderElements.size() - 1) {
writer.append(',');
}
}
writer.append('\n');
System.out.println();

Elements tableRowElements = tableElement.select(":not(thead) tr");

for (int i = 0; i < tableRowElements.size(); i++) {
Element row = tableRowElements.get(i);
System.out.println("row");
Elements rowItems = row.select("td");
for (int j = 0; j < rowItems.size(); j++) {
System.out.println(rowItems.get(j).text());
writer.append(rowItems.get(j).text());

if (j != rowItems.size() - 1) {
writer.append(' ');
}
}
writer.append('\n');
}

writer.close();
}

为了在单独的 HTML 中获得样式正确的表格,我应该在代码中添加什么?

最佳答案

这会提取 html 表(不含 css)并将其保存到文件中

public class Parser {
public void parseAndWrite() {

Document doc;
try {
doc = Jsoup.connect(" https://www.ote-cr.cz/en/statistics/electricity-imbalances-1").get();

PrintWriter writer = new PrintWriter(new File("out.html"));
System.out.println(doc);
Element tableElement = doc.select("div.bigtable").first();

writer.write(tableElement.toString());

writer.close();
} catch (IOException e) {
// LOG may be?
}
}

希望这有帮助

关于java - 如何从特定网站提取 HTML 表到外部 HTML 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56466340/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com