c# - 为网站抓取工具实现的 TPL 数据流-6ren

c# - 为网站抓取工具实现的 TPL 数据流

转载作者：行者123 更新时间：2023-11-30 17:42:18

30

4

好吧，我知道我的问题需要更多的指导，而不是技术细节，但我希望 SO 成员不会介意 TPL 数据流的新手提出一些非常基础的问题。

我有一个简单的 Windows 窗体应用程序，它负责从我系统上的 Excel 文件中提取数据并将它们保存在数据库中。这个过程太长了，我想把它变成异步和并行的。以下是我的场景的简介。

Call function to Open connection to the database at the start

Call function to Update database with the time of the operation

Application needs to process suppose 100 Excel files which are in incremental order. For this I have used FileNumber which is incremented with each call.

Call function to UpdateUI (PageNumber is passed) (Example. File 1 processing)

Call function to Read Excel file (PageNumber is passed)

Call function to Process Excel file data (Excel Data is passed and PageNumber is passed)

Call function to Save values in the database (Excel Data is passed and PageNumber is passed)

Call function to UpdateUI (PageNumber is passed) (Example. File 1 processed)

现在我所取得的成就是我能够使用任务使这个过程异步。我对所有长时间运行的操作都使用了 async 和 await，并将我的函数转换为任务。

现在我想让一些任务并行运行。并非每个任务都是并行的，例如 OpenDatabase 连接只是异步的。但是我想创建一个任务或函数，它将为我的应用程序中的每个任务/函数使用数据流 block ，从更新 UI 到读取 Excel 文件并将它们保存到数据库中。

我开始使用 ActionBlock 来尝试这个，但是有太多不同的 block 我一无所知。请指导我在这种情况下将使用哪个 block 。如果有人为这种情况提供伪代码，那将非常棒。我将有一些事情可以开始。

最佳答案

在学习了 TPL Dataflow 之后，我设法对它及其 block 有了基本的了解。我在下面提到了我的理解，以防其他人需要抢先一步。

TPL Dataflow 建立在 TPL(任务并行库)之上，其主要目的是实现生产者/接收者(参与者/代理)设计。

TPL 数据流由 block 组成，这些 block 也称为数据流 block 。这些数据流 block 的目的是缓冲、处理和传播数据。每个 block 可以是接收者或生产者，也可以是两者。

无论其用途(接收方、生产方)如何，每个 block 都实现 IDataflowBlock。该接口(interface)的目的是使一个类成为数据流 block 。第二个目的是使任何 block 能够通过成功完成或故障关闭，最后这个接口(interface)使 block 能够返回 System.Threading.Task，它代表 block 异步完成。

此外，还有其他不同的接口(interface)，根据其目的使用，即接收者、生产者或传播者。接收方 block 实现 ISourceBlock，生产方 block 实现 ITargetBlock 和传播方 IPropagatorBlock。

block 也可以分为其他类别，如

>> Execution Blocks
    >> ActionBlock
    >> TransformBlock
    >> TransformManyBlock

>> Buffering Blocks
    >> BufferBlocl
    >> BrodcastBlock
    >> WriteOnceBlock

>> Joining Blocks
    >> BatchBlock
    >> JoinBlock
    >> BatchedJoinBlock

除了这些内置 block 之外，还可以编写自定义 block ，但在大多数情况下，这些 block 都能达到目的。此外，我还可以包括每个 block 的用途，但它会成为一篇文章。这是我的基本理解，我仍在学习和探索 TPL 数据流。

如果有人想了解专门用于数据抓取器的 TPL 数据流，那么这里是示例数据流框图，以帮助更好地理解该过程。

来源:https://petermeinl.wordpress.com/2012/10/13/a-webcrawler-demonstrating-the-beauty-of-tpl-dataflow/

关于c# - 为网站抓取工具实现的 TPL 数据流，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32073831/

30

4

0

文章推荐： c - 使用 "AND"或 "OR"的效率

文章推荐： c - ruby 内联 : Error: too few arguments to function

文章推荐： c - 在 win32 中显示错误命令行字符串的消息

文章推荐： c - 在服务器上远程执行自定义命令 c windows

android - 安装了最新的 ADT 和 sdk 工具，但仍然要求提供最新的 sdk 工具
这个问题在这里已经有了答案: Android ADT version required 20.0.0 and above (10 个答案) 关闭 9 年前。我刚刚安装了 Eclipse Juno
Visual Studio 2012 的 Python 工具。工具/选项窗口中缺少 Python
按照 This page from codeplex 上的指南进行操作后，我无法在我的工具/选项窗口中看到 Python 选项。我认为我与指南的唯一偏差是: 发行版:没有安装 activestate
sql-server - 此 T-SQL 脚本超出了允许的最大大小。通过从“工具”菜单中选择“选项”，在“SQL Server 工具”页面中调整此设置
我有一个非常大的 .sql 脚本。我将此脚本添加到 Visual Studio 2013 下的 SQL Server 项目中。当我尝试构建它时，我收到此错误消息 This T-SQL script e
【工具】IDEA怎么查看maven依赖链路？
当我在SpringBoot项目中想加个依赖，但是不确定现有依赖的依赖的依赖.....有没有添加过这个依赖，怎么办呢？如果添加过了但是不知道我需要的这个依赖属于哪个依赖的下面，怎么查呢？ IDEA中提供
PDF压缩库/工具
我正在做一个项目来减少 PDF 的大小，压缩它们。我想知道市场上是否有任何非常好的工具/库(.NET)。我确实尝试了一些像 Onstream Compression 这样的工具，但结果并不令人满意。
自动编译Android内核/工具
我想从我的源代码编译一个安卓内核。但我想使用工具或类似的东西。所以我只需单击一个按钮并获得一个可闪存的 zip 文件... 有工具吗？我可以用脚本来做吗？谢谢! 最佳答案这取决于您从哪里获得
用于简单分布式计算问题的Java框架/工具
我们生成 pdf 文件，其中包含有关数万名客户每月财务余额的数据。在高峰期(年底有 100.000 个文件)，使用在 5 台服务器之间分配负载，该过程可能需要长达 5 天的时间才能完成。工作负载的分配
进一步了解Python中的XML 工具
模块：xmllib xmllib 是一个非验证的低级语法分析器。应用程序员使用的 xmllib 可以覆盖 XMLParser 类，并提供处理文档元素（如特定或类属标记，或字符实体）的方法。从 Py
Maven Lint 工具
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 3 年前。
excel - 用于确定位置之间距离的方法/工具
我在一家医疗保健公司工作，拥有有关患者位置(地址、城市、州、 zip )的信息。我试图确定有多少百分比的患者住在离 5 个特定位置最近的地方。我正在寻找的答案是“25% 的患者住在离#1 地点最近的地
用于解压缩任何文件压缩格式的 Linux 工具
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 4年前关闭。我们不允许在 Stack Overflow 上提出有关通用计算硬件和软件的问题。您可以编辑问
ide - 您多久重新评估和升级一次开发环境和开发人员。工具？
As it currently stands, this question is not a good fit for our Q&A format. We expect answers to be
wcf - SvcTraceViewer 工具
请问我在哪里可以得到 SvcTraceViewer 工具？我尝试下载并安装许多 SDK。我查看了程序文件的垃圾箱。我需要它来跟踪我的 WCF 调用出了什么问题。最佳答案您可以通过下载 Win
autocomplete - 通用代码完成库/工具
我正在尝试在我最喜欢的编辑器中设置适当的代码完成功能，我们将其称为AnEditor，以避免互联网上充斥着特定于程序的答案。 (您知道语言是ALanguage。)编辑器具有两个我喜欢的功能:它既可以在控
不允许使用 Orm 工具 : What do you do?
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
Mercurial和 merge 工具？
当 merge 的两个分支对同一文件有更改时，Mercurial 是否总是使用外部 merge 工具？或者它是否首先查看它是否可以 merge 文件本身，如果不能，则仅转向外部工具？我问的原因是我
用于删除所有未使用代码的 Scala 工具
我正在为我使用的编辑器编写 Scala 插件，该插件将突出显示所有未使用的代码路径(可能未使用 defs 、 vals 、 classes 和 implicits )，并为用户提供一个选项以将它们从.
Jquery 工具触摸水平仅禁用垂直触摸
我有 jquery 工具滚动器...我喜欢它只为 swipeLeft swipeRight 实现触摸选项。当我使用 touch: true 时，它也会在向上/向下滑动时旋转.. 我按照此处的说明
Eclipse UML 工具
我已经尝试了一些用于构建 UML(对象/依赖图)的 Eclipse 工具，但我真正需要的是一个工具来生成这样的代码外 UML。 (反之亦然) 我更喜欢一个简单的 UML 工具，它易于安装并且没有任何依
CSS "Normalizer"工具？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为

首页

博学

6Ren·AI

商城

c# - 为网站抓取工具实现的 TPL 数据流