gpt4 book ai didi

c# - 如何为我的搜索引擎获取有效 URL 的数据库?

转载 作者:太空宇宙 更新时间:2023-11-03 11:07:07 25 4
gpt4 key购买 nike

我正在尝试为学校制作一个 Internet 搜索引擎,只使用 C# 和 .NET 框架。我需要下载我正在编制索引的页面的 HTML 代码。

现在只需要有一个有效 URL 的列表。

因为我没有有效 URL 的数据库,所以我做了一个试错算法,它生成一个字符串:

a, b, c.....
aa, ab, ac......
aaa, aab, aac......
aaaa, aaab, aaac......
aaaaa, aaaab, aaaac......

然后尝试与 .com、.net 或其他任何内容连接。这太低效了。

我需要一个具有有效 URL 的数据库。你知道我在哪里可以买到吗?

我不知道如何让它们直接脱离 DNS - 这可能吗?

最佳答案

您可以构建自己的。大多数搜索引擎抓取页面并跟踪指向其他页面的链接。

你从一个已知列表开始(它不必很大)然后:

  1. 访问列表中的页面
  2. 在这些页面上找到链接
  3. 将这些链接添加到您的列表
  4. 转到 1

至于使用DNS;它不是为查询 URL 而设计的,仅用于查询主机名。而且,据我所知,除非您自己管理服务器,否则您无法从 DNS 服务器获取每个主机名的列表。

关于c# - 如何为我的搜索引擎获取有效 URL 的数据库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15490564/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com