gpt4 book ai didi

web-scraping - 使用Disqus从网站检索评论

转载 作者:行者123 更新时间:2023-12-04 18:13:09 27 4
gpt4 key购买 nike

我想编写一个抓取脚本来检索cnn文章中的评论。例如,本文:http://www.cnn.com/2012/01/19/politics/gop-debate/index.html?hpt=hp_t1

我意识到cnn在他们的评论讨论中使用了disqus。由于评论加载不是基于网页的(即,上一页,下一页),而是动态的(即,需要单击“加载下一个25”),因此我不知道如何检索本文的所有5000多个评论。

有什么想法或建议吗?

非常感谢!

最佳答案

抓取(其他方法然后获取页面)的选项可能不那么健壮(取决于您的需求),但会为您遇到的问题提供解决方案,该方法是在成熟的Web浏览器周围使用某种包装器,从字面上编码使用模式并提取相关数据。由于您没有提到您知道哪种编程语言,因此我将举3个示例:1)Watir-ruby,2)Watin-通过.net的IE和Firefox,3)Selenium-通过C#/Java/Perl/PHP/的IE Ruby/Python

我将提供一个使用Watin&C#的小例子:

IE browser = new IE();
browser.GoTo(YOUR CNN URL);
List visibleComments = Browser.List(Find.ById("dsq-comments"));
//do your scraping thing
Link moreComments = Browser.Link(Find.ByClass("dsq-paginate-append-text");
moreComments.click();
//wait util ajax ended by searching for some indicator
Browser.WaitUntilContainsText(SOME TEXT);
//do your scraping thing

注意:
我对Disqus不熟悉,但是通过循环我发布的代码的链接和单击部分直到所有注释都可见并刮除List元素dsq-comments来强制显示所有注释可能是一个更好的选择

关于web-scraping - 使用Disqus从网站检索评论,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8937785/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com