gpt4 book ai didi

java - 获取许多网站和服务的主机

转载 作者:太空宇宙 更新时间:2023-11-04 14:01:36 25 4
gpt4 key购买 nike

如何编写代码来抓取这个?

网站可以查找哪家公司正在托管特定网站或服务:

例如,输入 fbcdn.net,它会提供 Facebook。输入 paypal.com,它就会提供 eBay。

我有超过100000个网站,想查看对应的公司。现在我正在寻找Jsoup,它是解决方案吗?这样我就能做到:

For(String website : websiteSet){
url = "http://hostadvice.com/tools/whois/#" + website
Document doc = Jsoup.connect(url).get();
String company = doc.getHost();
Map.put(website, company);
}

有什么建议吗?因为我听说正在抓取的网站可能会阻止我的请求,因为它在几分钟内发送了太多请求?

最佳答案

如果您担心被屏蔽,那么正确的解决方案是:

  1. 阅读网站的“服务条款”页面。

  2. 如果 ToS 页面允许网络抓取(或未提及),请遵循 ToS 中规定的任何规则以及网站的“robots.txt”文件中的说明。

  3. 如果 ToS 禁止抓取,请查看他们是否(向授权用户)提供 API 来检索信息。

  4. 如果 ToS 禁止抓取且没有 API,请联系网站所有者并请求抓取其网站的权限,或以其他方式从他们那里获取您所需的信息。

  5. 如果他们说“不”...放弃。

<小时/>

在这种情况下,很明显您尝试做的事情是不允许的。 (从法律角度来看,这将侵犯他们的版权,并可能侵犯其他与未经授权访问信息相关的法律。)是否存在 API,或者如果您提出要求,他们是否会给予您许可,这是值得怀疑的。 (如果你愿意付费......这可能会改变事情。)

关于java - 获取许多网站和服务的主机,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29252637/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com