gpt4 book ai didi

web-crawler - Kentico 10 使用的网络爬虫引擎

转载 作者:行者123 更新时间:2023-12-02 21:49:52 24 4
gpt4 key购买 nike

根据文档 Configuring Page Crawler Indexes 是否有有关 Kentico 10 使用的网络爬虫技术/引擎的更多信息?

我问这个问题的原因是因为我想考虑将其用于可以位于 Kentico 之外的自定义爬虫项目,并且仍然允许它与 Kentico 平台具有固有的兼容性。

最佳答案

据我从 Kentico 10 源代码来看,Kentico SmartSearch 使用的爬虫是完全专有的。它没有使用任何第三方库。

它使用System.Web.HttpWebRequest下载页面内容。完整内容以字符串形式反馈到 SmartSearch 索引器中。之后,它会进行文本提取并馈送到 Lucene 进行索引。

让 Kentico SmartSearch 使用外部爬虫并不容易。我们通常远离爬虫,因为与直接从数据库提取数据的标准索引相比,它的执行成本相当高。

Kentico 支持executing some scheduled tasks in a Windows service但不是搜索任务。

请注意,Kentico SmartSearch 实际上并不通过发现链接来抓取网站。它使用内容树来确定需要索引的内容。如果您想对其他内容(例如来自您集成的系统的内容)建立索引,则需要实现自定义搜索服务,如here所述。 .

可行的一件事是让外部进程抓取您想要索引的任何内容并将原始 HTML 内容放入存储中。然后编写一个自定义 SmartSearch 索引,从存储中提取数据以便在 Kentico 中建立索引。如果您正在对 Kentico 管理的内容建立索引,则可以通过 Hook 文档事件将其提升到一个新的水平。这样您就可以仅在页面更新时对其进行抓取。

关于web-crawler - Kentico 10 使用的网络爬虫引擎,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45985957/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com