gpt4 book ai didi

java - 从 HTML 文件中收集数据

转载 作者:行者123 更新时间:2023-11-29 03:32:22 24 4
gpt4 key购买 nike

作为工作的一部分,我必须整理 this page并收集每所学校的学校管理员、地址和县的信息。我在 Java 中做了很多工作,所以我想如果我要尝试做一些事情来做这件事,它应该在 Java 中。

但是我以前没有做过这样的事情,对于应该从哪里开始有点困惑。如果有人可以帮助我了解我需要使用哪些类,以及有关我将如何查看 HTML 代码以对所有这些进行分类的一些信息,那就太好了。谢谢。

最佳答案

您需要实现一个抓取器,即从 HTML 中抓取数据的应用程序。

我会先研究一个不错的爬虫库,例如 jsoup ( http://jsoup.org/ ),看看您是否可以使用它来完成这项工作。

本质上你最终会得到类似的东西:

Document doc = Jsoup.connect("http://www.ncpublicschools.org/...").get();
Elements schools = doc.select("div.indenter p span.colorText2 a");

只需根据需要继续应用选择规则来收集您需要的数据。

关于java - 从 HTML 文件中收集数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17571470/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com