C#网络爬虫开发-6ren

C#网络爬虫开发

转载作者：我是一只小鸟更新时间：2023-02-12 14:33:48

1前言

爬虫一般都是用Python来写，生态丰富，动态语言开发速度快，调试也很方便。

但是。

我要说但是，动态语言也有其局限性，笔者作为老爬虫带师，几乎各种语言都搞过，现在这个任务并不复杂，用我最喜欢的C#做小菜一碟~ 。

2开始

之前做 OneCat 项目的时候，最开始的数据采集模块，就是用 C# 做的，同时还集成了 Chloe 作为 ORM，用 Nancy 做 HTTP 接口，结合 C# 强大的并发功能，做出来的效果不错.

这次是要爬一些壁纸，很简单的场景，于是沿用了之前 OneCat 项目的一些工具类，并且做了一些改进.

3HttpHelper

网络请求直接使用 .Net Core 标准库的 HttpClient ，这个库要求使用单例，在 AspNetCore 里一般用依赖注入，不过这次简单的爬虫直接用 Console 程序就行.

把 HTML 爬下来后，还需要解析，在Python中一般用 BeautifulSoup，在C#里可以用 AngleSharp ，也很好用~ 。

为了使用方便，我又封装了一个工具类，把 HttpClient 和 AngleSharp 集成在一起.

                        
                          public static class HttpHelper {
                          

                              public const string UserAgent =
                          

                                  "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36";
                          

                          

                              public static HttpClientHandler Handler { get; }
                          

                          

                              public static HttpClient Client { get; }
                          

                          

                              static HttpHelper() {
                          

                                  Handler = new HttpClientHandler();
                          

                                  Client = new HttpClient(Handler);
                          

                                  Client.DefaultRequestHeaders.Add("User-Agent", UserAgent);
                          

                              }
                          

                          

                              public static async Task<IHtmlDocument> GetHtmlDocument(string url) {
                          

                                  var html = await Client.GetStringAsync(url);
                          

                                  // todo 这个用法有内存泄漏问题，得优化一下
                          

                                  return new HtmlParser().ParseDocument(html);
                          

                              }
                          

                          

                              public static async Task<IHtmlDocument> GetHtmlDocument(string url, string charset) {
                          

                                  var res = await Client.GetAsync(url);
                          

                                  var resBytes = await res.Content.ReadAsByteArrayAsync();
                          

                                  var resStr = Encoding.GetEncoding(charset).GetString(resBytes);
                          

                                  // todo 这个用法有内存泄漏问题，得优化一下
                          

                                  return new HtmlParser().ParseDocument(resStr);
                          

                              }
                          

                          }

这段代码里面有俩 todo ，这个内存泄漏的问题在简单的爬虫中影响不大，所以后面有大规模的需求再来优化吧~ 。

4搞HTML

大部分爬虫是从网页上拿数据。

如果网页是后端渲染出来的话，没有js动态加载数据，基本上用CSS选择器+正则表达式就可以拿到任何想要的数据.

经过前面的封装，请求网页+解析HTML只需要一行代码。

                        
                          IHtmlDocument data = await HttpHelper.GetHtmlDocument(url);

拿到 IHtmlDocument 对象之后，用 QuerySelector 传入css选择器，就可以拿到各种元素了.

例如这样，取出 <li> 元素下所有链接的地址。

                        
                          var data = await HttpHelper.GetHtmlDocument(url);
                          

                          foreach (var item in data.QuerySelectorAll(".pagew li")) {
                          

                              var link = item.QuerySelector("a");
                          

                              var href = link?.GetAttribute("href");
                          

                              if (href != null) await CrawlItem(href);
                          

                          }

或者结合正则表达式。

                        
                          var data = await HttpHelper.GetHtmlDocument(url);
                          

                          var page = data.QuerySelector(".pageinfo");
                          

                          Console.WriteLine("拿到分页信息：{0}", page?.TextContent);
                          

                          var match = Regex.Match(page?.TextContent ?? "", @"共\s(\d+)页(\d+)条");
                          

                          var pageCount = int.Parse(match.Groups[1].Value);
                          

                          for (int i = 1; i <= pageCount; i++) {
                          

                              await CrawlPage(i);
                          

                          }

正则表达式非常好用，爬虫必备~ 。

这里再推荐一个好用的东西，菜鸟工具的在线正则表达式测试，拿到一个字符串之后，先在测试器里面写出一个能匹配的正则，再放到程序里，效率更高~ 。

地址: https://c.runoob.com/front-end/854/ 。

5JSON 处理

老生常谈的问题了。

JSON 在 web 开发中很常见，无论是接口交互，还是本地保存数据，这都是一种很好的格式。

.Net Core 自带的 System.Text.Json 还不错，不需要手动安装依赖，没有特殊需求的话，直接用这个就好了。

这里的场景是要把采集的数据存到 JSON 里，即序列化，用以下的配置代码一把梭即可，可以应付大多数场景。

                        
                          var jsonOption = new JsonSerializerOptions {
                          

                              WriteIndented = true,
                          

                              Encoder = JavaScriptEncoder.UnsafeRelaxedJsonEscaping
                          

                          };

写入文件。

                        
                          await File.WriteAllTextAsync("path", JsonSerializer.Serialize(data, jsonOption));

6下载文件

最简单就是直接用 HttpClient 获取 Response，然后 CopyToAsync 写到文件流里面。

这个用法拿来下载几个小文件还可以，但多线程下载、断点重连、失败重试等方法就得自己实现了，比较繁琐.

所以这次我直接用了第三方库 Downloader，这个库看起来很猛，功能很多，我就不翻译了，详情见项目主页。

项目地址: https://github.com/bezzad/Downloader 。

同样的，我把下载的功能也封装到 HttpHelper 中。

增加这部分代码。

                        
                          public static IDownloadService Downloader { get; }
                          

                          

                          public static DownloadConfiguration DownloadConf => new DownloadConfiguration {
                          

                              BufferBlockSize = 10240, // 通常，主机最大支持8000字节，默认值为8000。
                          

                              ChunkCount = 8, // 要下载的文件分片数量，默认值为1
                          

                              // MaximumBytesPerSecond = 1024 * 50, // 下载速度限制，默认值为零或无限制
                          

                              MaxTryAgainOnFailover = 5, // 失败的最大次数
                          

                              ParallelDownload = true, // 下载文件是否为并行的。默认值为false
                          

                              Timeout = 1000, // 每个 stream reader  的超时（毫秒），默认值是1000
                          

                              RequestConfiguration = {
                          

                                  Accept = "*/*",
                          

                                  AutomaticDecompression = DecompressionMethods.GZip | DecompressionMethods.Deflate,
                          

                                  CookieContainer = new CookieContainer(), // Add your cookies
                          

                                  Headers = new WebHeaderCollection(), // Add your custom headers
                          

                                  KeepAlive = true,
                          

                                  ProtocolVersion = HttpVersion.Version11, // Default value is HTTP 1.1
                          

                                  UseDefaultCredentials = false,
                          

                                  UserAgent = UserAgent
                          

                              }
                          

                          };
                          

                          

                          static HttpHelper() {
                          

                              // ...
                          

                              Downloader = new DownloadService(DownloadConf);
                          

                          }

使用方法依然是一行代码。

                        
                          await HttpHelper.Downloader.DownloadFileTaskAsync(url, filepath);

不过这次没有直接封装一个下载的方法，而是把 IDownloadService 对象做成属性，因为下载的时候往往要加一些“buff” 。

比如监听下载进度，看下面的代码。

                        
                          HttpHelper.Downloader.DownloadStarted += DownloadStarted;
                          

                          HttpHelper.Downloader.DownloadFileCompleted += DownloadFileCompleted;
                          

                          HttpHelper.Downloader.DownloadProgressChanged += DownloadProgressChanged;
                          

                          HttpHelper.Downloader.ChunkDownloadProgressChanged += ChunkDownloadProgressChanged;

这个库提供了四个事件，分别是:

下载开始
下载完成
下载进度变化
分块下载进度变化

7进度条

有了这些事件，就可以实现下载进度条展示了，接下来介绍的进度条，也是 Downloader 这个库官方例子中使用的。

项目地址: https://github.com/Mpdreamz/shellprogressbar 。

首先，把官网上的例子忘记吧，那几个例子实际作用不大.

Tick模式

这个进度条有两种模式，一种是它自己的 Tick 方法，先定义总任务数量，执行一次表示完成一个任务，比如这个:

                        
                          using var bar = new ProgressBar(10, "正在下载所有图片", BarOptions);

上面代码定义了10个任务，每执行一次 bar.Tick() 就表示完成一次任务，执行10次后就整个完成~ 。

`IProgress<T>` 模式

这个 IProgress<T> 是C#标准库的类型，用来处理进度条的.

ProgressBar 对象可以使用 AsProgress<T> 方法转换称 IProgress<T> 对象，然后调用 IProgress<T> 的 Report 方法，报告进度.

这个就很适合下载进度这种非线性的任务，每次更新时，完成的进度都不一样。

Downloader的下载进度更新事件，用的是百分比，所以用这个 IProgress<T> 模式就很合适.

进度条嵌套

本爬虫项目是要采集壁纸，壁纸的形式是按图集组织的，一个图集下可能有多个图片。

为了应对这种场景，可以用一个进度条显示总进度，表示当前正在下载某个图集。

然后再嵌套子进度条，表示正在下载当前图集的第n张图片。

然后的然后，再套娃一个孙子进度条，表示具体图片的下载进度（百分比）。

这里用到的是 ProgressBar 的 Spawn 方法，会生成一个 ChildProgressBar 对象，此时更新子进度条对象的值就好了.

直接看代码吧。

                        
                          var list = // 加载图集列表
                          

                          using var bar = new ProgressBar(list.Count, "正在下载所有图片", BarOptions);
                          

                          

                          foreach (var item in list) {
                          

                              bar.Message = $"图集：{item.Name}";
                          

                              bar.Tick();
                          

                          

                              foreach (var imgUrl in item.Images) {
                          

                                  using (var childBar = bar.Spawn(item.ImageCount,$"图片：{imgUrl}",ChildBarOptions)) {
                          

                                      childBar.Tick();
                          

                                      // 具体的下载代码
                          

                                  }
                          

                              }
                          

                          }

这样就实现了主进度条显示下载了第几个图集，子进度条显示下载到第几张图片.

然后具体下载代码中，使用 Downloader 的事件监听，再 Spawn 一个新的进度条显示单张图片的下载进度.

代码如下:

                        
                          private async Task Download(IProgressBar bar, string url, string filepath) {
                          

                              var percentageBar = bar.Spawn(100, $"正在下载：{Path.GetFileName(url)}", PercentageBarOptions);
                          

                          

                              HttpHelper.Downloader.DownloadStarted += DownloadStarted;
                          

                              HttpHelper.Downloader.DownloadFileCompleted += DownloadFileCompleted;
                          

                              HttpHelper.Downloader.DownloadProgressChanged += DownloadProgressChanged;
                          

                          

                              await HttpHelper.Downloader.DownloadFileTaskAsync(url, filepath);
                          

                          

                              void DownloadStarted(object? sender, DownloadStartedEventArgs e) {
                          

                                  Trace.WriteLine(
                          

                                      $"图片, FileName:{Path.GetFileName(e.FileName)}, TotalBytesToReceive:{e.TotalBytesToReceive}");
                          

                              }
                          

                          

                              void DownloadFileCompleted(object? sender, AsyncCompletedEventArgs e) {
                          

                                  Trace.WriteLine($"下载完成, filepath:{filepath}");
                          

                                  percentageBar.Dispose();
                          

                              }
                          

                          

                              void DownloadProgressChanged(object? sender, DownloadProgressChangedEventArgs e) {
                          

                                  percentageBar.AsProgress<double>().Report(e.ProgressPercentage);
                          

                              }
                          

                          }

注意所有的 ProgressBar 对象都需要用完释放，所以这里在 DownloadFileCompleted 事件里面 Dispose 了.

上面的是直接用 using 语句，自动释放.

进度条配置

这个东西的自定义功能还不错.

可以配置颜色、显示字符、显示位置啥的。

                        
                          var barOptions = new ProgressBarOptions {
                          

                              ForegroundColor = ConsoleColor.Yellow,
                          

                              BackgroundColor = ConsoleColor.DarkYellow,
                          

                              ForegroundColorError = ConsoleColor.Red,
                          

                              ForegroundColorDone = ConsoleColor.Green,
                          

                              BackgroundCharacter = '\u2593',
                          

                              ProgressBarOnBottom = true,
                          

                              EnableTaskBarProgress = RuntimeInformation.IsOSPlatform(OSPlatform.Windows),
                          

                              DisplayTimeInRealTime = false,
                          

                              ShowEstimatedDuration = false
                          

                          };

EnableTaskBarProgress 这个选项可以同时更新Windows任务状态栏上的进度。

具体配置选项可以直接看源码，里面注释很详细.

如果 Spawn 出来的子进度条没配置选项，那就会继承上一级的配置.

8小结

用 C# 来做爬虫还是舒服的，至少比 Java 好很多。

做控制台应用，打包成exe也方便分发。

最后此篇关于C#网络爬虫开发的文章就讲到这里了,如果你想了解更多关于C#网络爬虫开发的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： Solon2开发之容器，八、动态代理的本质

文章推荐： SalesforceLWC学习(四十二)getRecordNotifyChange已弃用

文章推荐： ASP.NETCore-IStartupFilter与IHostingStartup

文章推荐：基于ApacheHudi构建Serverless实时分析平台

c# - 爬虫/机器人如何工作？区分机器人/爬虫 http 请求
我在一个网站上工作。我需要了解我的网站是否获得了来自 Google 或任何其他搜索引擎的抓取工具/机器人的访问在我的应用程序中，我正在拦截 http 请求。并且需要查明爬虫/机器人是否正在发出 h
北京理工大学python 爬虫
我与北京理工大学python爬虫的邂逅在人生的旅途中，我们时常有机会邂逅一些惊艳的事物，它们仿佛一束亮光照亮了前行的道路。而我，一个平凡的人类，也不例外。回想起那个让我心动的时刻，我想起了与北京理工
爬虫是用python什么文件写的
从“爬虫”谈起在这个信息爆炸的时代，互联网上的数据宛如茫茫星海，琳琅满目。但是，我们能否想象到这些数据背后隐藏着多少珍贵的信息呢？有人说，要想获得这些数据，我们需要借助一种神奇的力量——爬虫。什么
爬虫 python能爬到视频播放地址吗
探索未知的领域曾几何时，我陷入了对互联网世界的好奇之中。作为一个普通的人类，我对于计算机技术的了解可谓是一窍不通。然而，好奇心驱使着我踏上了学习的征途。奇妙的爬虫在探索计算机领域的过程中，我翻阅
零基础python视频教程课程爬虫
教室的奇妙之旅在一个晴朗的早晨，我来到了一所神奇且富有魅力的教室。这里充满了未知的冒险和无限的学习可能。嘿，你没听错，就是那个零基础Python视频教程课程的教室！让我带你一起踏上这趟令人期待的爬虫
零基础学python3 爬虫
零基础学python3 爬虫嗨，各位小伙伴们！今天要和大家分享一段有关学习Python3爬虫的故事。无论是技术小白还是编程高手，都可以从中获益良多。 1. 邂逅神奇的爬虫世界就像是迷失在未知之地的
Python如何求一个目录迭代的最小移动次数——爬虫
我正在开发一个 Python(3) 程序，在该程序中，我必须使用输入作为表示各种操作的多次迭代列表来返回目录迭代的移动次数，例如: ../ 表示移动到当前文件夹的父文件夹。 ./ 保留在同一文件夹中
python+爬虫+第三方库
我和Python：一段关于爬虫和第三方库的故事曾经有一个人，他和一门编程语言结下了不解之缘。这门语言就是Python，一个灵活而强大的工具，让他的世界变得多姿多彩。遇见爬虫：探索未知的世界某天，
大众点评top10 爬虫 python
偷心技艺：大众点评TOP10 爬虫 Python 故事发生在一个被互联网包围的城市，充满了各种各样的餐馆、咖啡厅和美食街巷。每天都有无数的食客们纠结于选择哪家餐厅才能获得满足和享受。就在这个时候，我偶
为什么python 爬虫部分网页源码
登山寻宝：为什么Python爬虫部分网页源码人生就像登山寻宝的旅程，充满了未知和挑战。而对于爱好编程的我来说，写一个Python爬虫，探索网络世界也是一种刺激的冒险。今天，我想和大家分享一下为什么要
python 爬虫获取携程网站机票数据
插班生的悲喜交加记得那个夏天，我踏入了编程的殿堂，成为了一名程序员。对于一个毫无基础的人来说，这是一次勇敢而激动的尝试。然而，更令我兴奋的是，在我的码农之旅中，我发现了一种神奇的力量——Python
python 爬虫保存分页数据库
一、意外的宝藏当我踏进了编程的大门，发现了那个绚丽多彩的世界时，我仿佛捡到了一个意外的宝藏。在编码的世界里，我像是一个魔术师，用着神奇的符号与逻辑来创造奇迹。然而，随着时间的推移，我渐渐找到了一种
python 爬虫 js网页数据库
“呜呜呜~” 夏日的阳光穿过微风，洒在我身上，仿佛一片温暖而宁静的海洋。我望着眼前充满希望与挑战的屏幕，满脸的期待和困惑。作为一个刚刚入门的编程初学者，我竭尽全力探索着那座神秘的编程世界，好像是航行在
python 爬虫 f怎么获取第几个td
我的编程之旅嗨，大家好！我是一个普通的人类，对于编程世界充满着无限的好奇和热情。今天，我想向大家讲述一段关于我的编程经历，特别是在爬虫领域的探索之旅。 1. 踏上未知的征途就像一只踏上大海的小船，
python 爬虫爬取京东销量数据库
揭秘神奇的爬虫世界：探寻京东销量数据库从古至今，人类一直渴望了解世界的各个角落。而对于互联网这个充满未知和神秘的领域来说，我们更是怀着好奇和充满冒险精神的心态去探索。今天，我将带领大家踏上一段激动人
python 爬虫爬取关键词排名
啊！你好呀！很高兴能遇到你，让我向你讲一个关于python爬虫爬取关键词排名的故事。章节一：奇妙的网络世界网络就像一片浩瀚的海洋，里面有无数宝藏等待着我们发掘。而当我们学会了使用python这把钥
python 爬虫同一会话查询多次
一次意外的奇遇在我们生活的世界中，技术如今已经无处不在，无论是大型软件开发还是个人应用，都离不开它的支持。而其中最为神奇的领域之一，就是爬虫技术。想象一下，你有可能仅凭几行代码，就能够在电脑屏幕上将
爬虫网易云音乐评论 python3
奇遇之旅在这个大千世界中，我有幸踏上了一次令人兴奋的冒险之旅。故事的开始，是一个寂静而神秘的夜晚。迷宫的入口深夜的城市，街道上弥漫着微弱的灯光，仿佛点缀着无数的星星。我沿着曲径通幽的小巷走着，脚
python 爬虫自动上传下载
python 爬虫自动上传下载从前有一个热爱编程的小伙子，他喜欢利用自己的技术解决各种实际问题。有一天，他面对一个任务：需要在网络上批量上传和下载文件。这可不是一件轻松的工作，但对于这位小伙子来说
python 爬虫第三方库
一场奇妙的探险之旅：Python编程语言中的爬虫第三方库故事从一个寻宝者开始。他身穿一件斑驳的皮衣，手持一柄锈迹斑斑的剑，如同一个当代版的荒野游侠。这位勇士的目标是探索Python编程语言中的神秘领

我是一只小鸟

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城