gpt4 book ai didi

java - 使用 JSOUP 从网页检索有用信息

转载 作者:行者123 更新时间:2023-11-30 02:53:05 26 4
gpt4 key购买 nike

如何从万维网任何网页的 JAVA 页面的“页脚”部分检索“联系我们”链接。

例如查找页脚元素,或 id="footer"或具有页脚类的元素?

我尝试使用 JSOUP 从网页检索所有链接,然后在其中运行正则表达式 .*contact.* 。但我不能 100% 确定通过这种方法获取的链接是网站的联系我们页面。

第二季度

是否有任何其他可靠的方法,或者我是否可以使用页脚链接和我已经完成的方法来断定页面是否肯定是联系我们页面?

最佳答案

But I cannot be 100% sure on that the fetched link...

简答

你永远无法确定。


长答案

对于给定的随机 HTML 页面,您想要找到“联系我们”链接。这种工作对于人类来说是微不足道的。这对计算机来说是一个巨大的挑战。

我可以在您的情况下看到一些选项:

选项 1:众包

  • 获取您想要“联系我们”信息的所有网站网址
  • 将它们发送到众包服务平台,要求真人为您查找信息(Rapidworkers.com、Crowdsource.com、Clickworker.com、Amazon Mechanical Turk、microworkers.com)

检查平台是否提供 API。

+ work done by human
+ dynamically adapt to unknown pattern
- cost money
- We suck at repetitive tasks

选项 2: IA(模式搜索)

  • 培训 IA 提取信息
  • 然后访问您的网站

看看Weka例如或 Java-ML .

+ Automated task
+ Can perform a repetitive task long time
- May take time to built a robust solution
- Risk of false positive or complete miss

选项 3:使用 Jsoup

  • 仔细研究您定位的网站的模式
  • 告诉 Jsoup 查找您检测到的模式

此选项是一项永无止境的任务。您必须始终为 Jsoup 提供新模式。我建议您建立一个监控系统,告诉您网站何时逃脱任何已知模式。

+ Automated task
+ Can perform a repetitive task long time
- Take time for studying, discovering, adding new patterns
- Risk of false positive or complete miss

选项 4:上述三个选项的混合

您可以在您的目标网站上使用这三个选项。

+ Reduce chances of false positive or complete misses
+ More confident final result
- Take time for studying, discovering, adding new patterns
- Cost money

关于java - 使用 JSOUP 从网页检索有用信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38049230/

26 4 0