gpt4 book ai didi

java - 使用 JSoup 帮助抓取 HTML

转载 作者:行者123 更新时间:2023-11-29 03:54:47 26 4
gpt4 key购买 nike

这里有点初学者,正在从事个人项目,将我的学校类(class)设置为易于阅读的表格格式,但在从网站上抓取数据的初始步骤时遇到了问题。

我刚刚在 eclipse 中将 JSoup 库添加到我的项目中,现在在使用 Jsoup 的文档时无法初始化连接。

最后,我的目标是抓取每个类(class)名称/时间/描述,但现在我只想抓取名称。源网站的 HTML 如下所示:

<td class='CourseNum'><img src='images/minus.gif' class='ICS3330 SW' onclick="toggledetails('CS3330')

我的第一个猜测是getElementsByTag(td),然后在这些元素中查询onclick=的参数或者‘class’参数的值,清理掉开头的“I”和“SW”的后缀” 留下名称“CS3330”。

现在进入实际的实现:

Document doc = Jsoup.parse("UTF-8", "http://rabi.phys.virginia.edu/mySIS/CS2/page.php?Semester=1118&Type=Group&Group=CompSci").get();
Elements td = doc.getElementsByTag("td");

在这一点上,我已经遇到了问题(尽管我并没有偏离文档中提供的示例太远),希望能提供一些指导让我的代码正常运行!

编辑:知道了!谢谢大家!

最佳答案

根据 documentation你应该这样做:

Document doc = Jsoup.connect(url).get();

parse() 方法用于文件。

关于java - 使用 JSoup 帮助抓取 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6975053/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com