- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
首先,我对线程非常陌生。我想要完成的是,有一个 url 列表,我正在尝试抓取(我认为)并检测 flash(如果 url 有它),并且这也是并行的。一些 url 有外部链接,这意味着我必须生成一个新任务并递归调用我的方法。我想使用 AsParallel 或 Parallel.ForEach,但它们不接受任务输入。
所以我有两个问题。1)我想要一种更好的方法来并行爬取 url(如果需要则递归)2) 如果我写的是一个好的方法,那么我应该怎么做才能让一个任务等待它的 child ?
附言我搜索了 stackoverflow,但找不到我需要的东西。抱歉,如果我错过了有人已经回答过与我类似的问题。
async Task CrawlAndDetectFlash(LearningResource resource, string url, int depth)
{
using (var client = new HttpClient())
using (var response = await client.GetAsync(url))
{
response.EnsureSuccessStatusCode();
using (var content = response.Content)
{
var result = content.ReadAsStringAsync().Result;
resource.FlashRequired = result.Contains("application/x-shockwave-flash") || result.Contains("application/x-director") || result.Contains(".swf") ? 1 : 0;
if (resource.FlashRequired == 0 && depth == 1)
{
var document = new HtmlDocument();
document.LoadHtml(result);
var links = document.DocumentNode.Descendants("a")
.Where(a => a.Attributes.Contains("class") && String.Equals(a.GetAttributeValue("class", string.Empty), "external"))
.Select(a => a.GetAttributeValue("href", null))
.Distinct()
.Where(u => !String.IsNullOrEmpty(u))
.ToList();
if (links.Count > 0)
{
foreach (var link in links)
{
Task child = CrawlAndDetectFlash(resource, link, 2);
child.Wait();
}
}
}
}
}
}
最佳答案
首先,您需要区分“并发”、“并行”和“异步”。并发是一次做不止一件事;并行是一种使用多线程的并发形式;异步是一种没有线程的并发形式。当您希望将线程分布到多个 CPU 内核时,并行最适合 CPU 绑定(bind)代码。当您不想阻塞线程时,异步最适合 I/O 绑定(bind)代码。
在您的情况下,看起来您主要受 I/O 限制,因此异步是可行的方法。这意味着 AsParallel
和 Parallel.ForEach
是针对此问题的不正确解决方案(它们是并行的,而不是异步的)。
下一课(正如我在博客中描述的那样)是你 don't want to block on asynchronous code ;阻塞破坏了整个异步点。所以Task<T>.Result
和 Task.Wait
不应使用。而不是这些,只需使用 await
:
async Task CrawlAndDetectFlashAsync(LearningResource resource, string url, int depth)
{
using (var client = new HttpClient())
using (var response = await client.GetAsync(url))
{
response.EnsureSuccessStatusCode();
using (var content = response.Content)
{
var result = await content.ReadAsStringAsync(); // Result -> await
resource.FlashRequired = result.Contains("application/x-shockwave-flash") || result.Contains("application/x-director") || result.Contains(".swf") ? 1 : 0;
if (resource.FlashRequired == 0 && depth == 1)
{
var document = new HtmlDocument();
document.LoadHtml(result);
var links = document.DocumentNode.Descendants("a")
.Where(a => a.Attributes.Contains("class") && String.Equals(a.GetAttributeValue("class", string.Empty), "external"))
.Select(a => a.GetAttributeValue("href", null))
.Distinct()
.Where(u => !String.IsNullOrEmpty(u))
.ToList();
if (links.Count > 0)
{
foreach (var link in links)
{
Task child = CrawlAndDetectFlashAsync(resource, link, 2);
await child; // Wait -> await
}
}
}
}
}
}
既然该方法是正确的异步方法,您可以考虑添加更多并发性。例如,如果您想同时处理所有子链接,则 foreach
循环可以重写为:
if (links.Count > 0)
{
var childTasks = links.Select(x => CrawlAndDetectFlashAsync(resource, x, 2)).ToList();
await Task.WhenAll(childTasks);
}
关于c# - 父任务不等待子任务,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34170575/
我目前正在寻找一些关于 jQuery 的建议,因为我认为我做错了,即使我得到了我想要的结果。 我想在更改时将输入的值更改为最接近的具有 .milestone 类的输入的值。我想要更改的输入是保持输入,
我已经阅读有关绑定(bind)、调用、申请的文章近一周了,对我来说仍然很复杂。我想我写的这个 jsfiddle 需要它们。然而,我没能做到,因为我仍然很困惑。 我尽力写了一些我上周从遇到这个问题的开发
我有一个项目生成代码。生成时间真的很长,所以我把它分成了多个项目,每个项目产生了整体的 20%。原始 POM 成为“父 POM”,子项依赖于它,仅包含一个单独的 Artifact ID 和一两个更改的
我正在使用局部 View 来创建父 subview 。我最理想的是父 View 上的提交按钮,用于保存子值。 我有以下模型。 public class Course { public int
我刚刚开始学习Rust,并且在理解所有权如何在我的案例中遇到一些麻烦: use std::ops::IndexMut; // =====================================
我是 JavaScript 新手,想了解更多有关它实例化父/子对象的顺序的信息。更具体地说,我想从编译器/浏览器的 Angular 理解以下代码片段。 var parent = { child:
我正在测试 Azure IaaS,并遇到了一个非常基本的问题。我有一个父 VHD 和子 VHD,已使用 csupload 将其作为页面 blob 上传,并且门户中显示图像和磁盘。然后我尝试将 pare
我的应用程序会定期为我坚持使用的对象请求更新 Core Data到网络服务。然后我需要更新我在主要上下文中拥有的对象(默认情况下 AppDelegate 中提供的对象)。编辑对象的不是用户,所以我需要
texT text text text text text 如何直接获取来自.menu ? 里面的 child 不应该采取。
我一直需要影响与其他元素相关的元素,但我的方法有点业余! 即到 // matched item where script is called from LINK 我使用; $(thi
我有两个表: 父子“类别”: id name parent_id 1 Food NULL 2 Pizza 1 3 Pasta
Linux 上的 Python 2.7.6。 我正在使用从父级继承的测试类。父类保存了许多子类共有的许多字段,我需要调用父类的 setUp 方法来初始化这些字段。调用 ParentClass.setU
我有一个处理图像、相册和相册类别的数据库。 一个专辑可以有多个专辑(子专辑),并且只有 1 级深度。 一张专辑仅属于一个专辑类别。 在这里做了一些研究,我相信最合适的数据库模型是这个 album_ca
我有一个关键字表,其中每个关键字都分配有一个 ID,并且是唯一的。我有第二个表,将父关键字的 ID 链接到子关键字的 ID。一个关键字最多可以有大约 800 个 child 或根本没有。 child
我经常使用这个 CSS 选择器 parent>child。我的设计在 Mozilla 和 Opera 中看起来不错。 但在 IE 中,它很糟糕。我知道 > 在 IE 中无法识别,但在 IE 中有什么替
我一直在用一个父对象构建一个系统,它在其中创建各种子对象,每个子对象都需要一个主对象才能运行。现在,到目前为止,我一直在创建 shared_ptr和 Child* ,所以当 Parent 和 所有 C
我从以下两个类中收到序列化兼容性错误。只有父类CommericalCustomer 实现了序列化。当具有如下所示的父/子关系时,使用可序列化接口(interface)的正确方法是什么? public
我正在开发一个程序并学习父/子进程。目前我的子进程是 exit(variable); 在我的 main() 中我有: signal(SIGCHLD, chldHandler); 在我的 main()
考虑以下两个具体类: public class A { protected void foo() { System.out.println("A foo"); bar
所以,我正在尝试建立这样的父/子类关系: class ParentClass where C : ChildClass { public void AddChild(C child)
我是一名优秀的程序员,十分优秀!