gpt4 book ai didi

java - 仅识别与新闻稿页面相关的链接

转载 作者:行者123 更新时间:2023-12-01 06:41:48 24 4
gpt4 key购买 nike

我的任务是找到给定链接的实际新闻稿链接。说http://www.apple.com/pr/例如。

我的工具必须从上述 URL 中单独查找新闻稿链接,排除在该网站中找到的其他广告链接、选项卡链接(或其他内容)。

开发了下面的程序,给出的结果是给定网页中存在的所有链接。

如何修改以下程序以从给定 URL 单独查找新闻稿链接?另外,我希望该程序是通用的,以便它可以识别来自任何新闻稿 URL 的新闻稿链接(如果给定)。

import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import java.sql.*;
import org.jsoup.nodes.Document;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Element;
public class linksfind{
public static void main(String[] args) {
try{
URL url = new URL("http://www.apple.com/pr/");
Document document = Jsoup.parse(url, 1000); // Can also take an URL.
for (Element element : document.getElementsByTag("a")) {
System.out.println(element.attr("href"));}
}catch (Exception ex){ex.printStackTrace();}
}
}

最佳答案

我认为没有任何明确的方法可以实现这一目标。您可以创建一组所有可能的关键字,例如“press”、“release”和“pr”等,并使用正则表达式等匹配网址以查找关键字。其正确性取决于您的关键字集的全面程度。

关于java - 仅识别与新闻稿页面相关的链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3468725/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com