gpt4 book ai didi

search - 像 torrentz.eu 这样的网站如何收集其内容?

转载 作者:行者123 更新时间:2023-12-02 06:46:28 24 4
gpt4 key购买 nike

我想知道一些搜索网站如何获取其内容。我在标题中使用了“torrentz.eu”的示例,因为它包含来自多个来源的内容。我想知道这个系统的背后是什么;他们是否“简单地”解析他们支持的所有网站,然后显示内容?或者使用一些网络服务?或者两者兼而有之?

最佳答案

您正在寻找Crawling Information Retrieval的方面.

爬行的基本流程是:给定一组初始网站 S,尝试通过探索链接来扩展它(查找 transitive closure 1)。

一些网站还使用focused crawlers ,如果他们尝试从一开始就只索引网络的一个子集。

附注有些网站两者都不做,而是使用Google Custom Search API提供的服务。/Yahoo Boss/Bing Deveoper API(当然是收费的),并使用它们的索引,而不是自己创建索引。

P.P.S 这提供了一种如何做到这一点的理论方法,我不知道所提到的网站实际上是如何工作的。

<小时/>

(1) 由于时间问题,通常找不到传递闭包,但有足够接近的东西。

关于search - 像 torrentz.eu 这样的网站如何收集其内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12405967/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com