python - LinkExtractor 和 SgmlLinkExtractor 的区别-6ren

python - LinkExtractor 和 SgmlLinkExtractor 的区别

转载作者：太空狗更新时间：2023-10-29 22:15:19

26

4

我是 scrapy 框架的新手，我看过一些使用 LinkExtractors 的教程和一些使用 SgmlLinkExtractor 的教程。我曾尝试寻找两者的差异/利弊，但结果并不令人满意。

谁能告诉我两者的区别？我们什么时候应该使用上述提取器？

谢谢!

最佳答案

为什么您找不到对 SgmlLinkExtractor 的引用的问题是它现在已弃用(相关 changeset )。您可以找到 SgmlLinkExtractor 定义 here - 在 Scrapy 0.24 文档中。

而且，你不应该再使用 SgmlLinkExtractor - Scrapy 现在只留下一个链接提取器 - LxmlLinkExtractor - LinkExtractor 别名指向的那个。

关于python - LinkExtractor 和 SgmlLinkExtractor 的区别，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37283564/

26

4

0

文章推荐： c# - 是否可以在 C# 中为泛型创建 "this type"？

文章推荐： c# - 在 .NET 2.0 中将文件保存到 Vista/Windows 7 中的桌面

文章推荐： Python:如何使用 PIL 模块调整图像大小

python - Scrapy SgmlLinkExtractor
我正在尝试让 scrapy 蜘蛛正常工作，但 SgmlLinkExtractor 似乎有问题。这是签名: SgmlLinkExtractor(allow=(), deny=(), allow_dom
python - 在哪里可以了解 scrapy SgmlLinkExtractor？
抱歉，我对 python 和 scrapy 非常陌生，试图通过反复试验来学习它们。关于SgmlLinkExtractor，我看到每个人(至少在这个网站上)都非常擅长找到正确的代码来表示正确的路径，我
python - Scrapy SgmlLinkExtractor - 递归抓取时遇到问题
更新:显然我无法在 8 小时内回答我自己的问题，但我让它工作了。谢谢大家! 我在让 scrapy 抓取 start_url 上的链接时遇到问题。以下是我的代码: from scrapy.select
python - Scrapy SgmlLinkExtractor 问题
我正在尝试让 SgmlLinkExtractor 工作。这是签名: SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domai
python - Scrapy SgmlLinkExtractor 忽略允许的链接
请看this spider example在 Scrapy 文档中。解释是: This spider would start crawling example.com’s home page, col
python - Scrapy SgmlLinkExtractor 引用者无
我正在努力让我的蜘蛛正常工作。这是我在蜘蛛中的代码: start_urls = ["http://www.khmer24.com/"] rules = ( Rule(SgmlLinkExtract
python - LinkExtractor 和 SgmlLinkExtractor 的区别
我是 scrapy 框架的新手，我看过一些使用 LinkExtractors 的教程和一些使用 SgmlLinkExtractor 的教程。我曾尝试寻找两者的差异/利弊，但结果并不令人满意。谁能告诉
python-2.7 - SgmlLinkExtractor 停止在第 3 页
继续my question与 SgmlLinkExtractor 问题。我正在尝试关注 the pages from here虽然它似乎可以工作并提取所有必需的项目，但爬虫程序在解析第三页后停止，没
python-2.7 - SgmlLinkExtractor 停止在第 3 页
继续my question与 SgmlLinkExtractor 问题。我正在尝试关注 the pages from here虽然它似乎可以工作并提取所有必需的项目，但爬虫程序在解析第三页后停止，没
scrapy - 广泛的 Scrapy 爬行 : sgmlLinkextractor rule does not work
我花了很多时间玩弄和使用谷歌，但我无法解决我的问题。我是 Scrapy 的新手，希望你能帮助我。部分有效的爬虫:我从 MySQL 数据库中定义我的 start_requests url。使用“par

首页

博学

6Ren·AI

商城

python - LinkExtractor 和 SgmlLinkExtractor 的区别