gpt4 book ai didi

web-crawler - 制作网络爬虫/蜘蛛

转载 作者:行者123 更新时间:2023-12-04 20:23:55 29 4
gpt4 key购买 nike

我正在研究制作网络爬虫/蜘蛛,但是我需要有人指出正确的方向才能上手。

基本上,我的Spider会搜索音频文件并将它们编入索引。

我只是想知道是否有人对我应该如何做有任何想法。我听说用PHP完成它会非常慢。我知道vb.net,这样可以派上用场吗?

我当时正在考虑使用Google的文件类型搜索来获取要抓取的链接。可以吗?

最佳答案

在VB.NET中,您需要首先获取HTML,因此请使用WebClient类或HttpWebRequest和HttpWebResponse类。有关如何在Internet上使用这些信息,有很多信息。

然后,您将需要解析HTML。我建议为此使用正则表达式。

使用Google进行文件类型搜索的想法很不错。几年前,我做了类似的事情来收集PDF,以在SharePoint中测试PDF索引,这确实很好。

关于web-crawler - 制作网络爬虫/蜘蛛,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3209499/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com