- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我是 scrapy 框架的新手,我看过一些使用 LinkExtractors
的教程和一些使用 SgmlLinkExtractor
的教程。我曾尝试寻找两者的差异/利弊,但结果并不令人满意。
谁能告诉我两者的区别?我们什么时候应该使用上述提取器?
谢谢!
最佳答案
为什么您找不到对 SgmlLinkExtractor
的引用的问题是它现在已弃用(相关 changeset )。您可以找到 SgmlLinkExtractor
定义 here - 在 Scrapy 0.24 文档中。
而且,你不应该再使用 SgmlLinkExtractor
- Scrapy 现在只留下一个链接提取器 - LxmlLinkExtractor
- LinkExtractor
别名指向的那个。
关于python - LinkExtractor 和 SgmlLinkExtractor 的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37283564/
我正在尝试让 scrapy 蜘蛛正常工作,但 SgmlLinkExtractor 似乎有问题。 这是签名: SgmlLinkExtractor(allow=(), deny=(), allow_dom
抱歉,我对 python 和 scrapy 非常陌生,试图通过反复试验来学习它们。 关于SgmlLinkExtractor,我看到每个人(至少在这个网站上)都非常擅长找到正确的代码来表示正确的路径,我
更新:显然我无法在 8 小时内回答我自己的问题,但我让它工作了。谢谢大家! 我在让 scrapy 抓取 start_url 上的链接时遇到问题。 以下是我的代码: from scrapy.select
我正在尝试让 SgmlLinkExtractor 工作。 这是签名: SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domai
请看this spider example在 Scrapy 文档中。解释是: This spider would start crawling example.com’s home page, col
我正在努力让我的蜘蛛正常工作。这是我在蜘蛛中的代码: start_urls = ["http://www.khmer24.com/"] rules = ( Rule(SgmlLinkExtract
我是 scrapy 框架的新手,我看过一些使用 LinkExtractors 的教程和一些使用 SgmlLinkExtractor 的教程。我曾尝试寻找两者的差异/利弊,但结果并不令人满意。 谁能告诉
继续my question与 SgmlLinkExtractor 问题。 我正在尝试关注 the pages from here虽然它似乎可以工作并提取所有必需的项目,但爬虫程序在解析第三页后停止,没
继续my question与 SgmlLinkExtractor 问题。 我正在尝试关注 the pages from here虽然它似乎可以工作并提取所有必需的项目,但爬虫程序在解析第三页后停止,没
我花了很多时间玩弄和使用谷歌,但我无法解决我的问题。我是 Scrapy 的新手,希望你能帮助我。 部分有效的爬虫:我从 MySQL 数据库中定义我的 start_requests url。使用“par
我是一名优秀的程序员,十分优秀!