gpt4 book ai didi

python - 搜索引擎推荐100个站点约4000个页面

转载 作者:行者123 更新时间:2023-12-01 06:17:07 27 4
gpt4 key购买 nike

我正在寻找一个搜索引擎,它可以定期(每天)扫描大约 100 个页面以查找更改,如果发现自上次扫描以来的更改,则可以对关联站点建立索引。它应该能够处理大约 100 个站点,每个站点平均有 4000 个页面,平均大小约为 5k,每个站点位于不同的服务器上(但只有一个集中式搜索引擎)。这些网站中的每一个都会有一个提交到该搜索引擎的搜索表单。返回的结果必须特定于提交它们的站点。我为外部站点创建模板,因此我可以为搜索表单提供一个隐藏字段,用于指定从哪个站点提交表单。

您建议我研究什么?

如果可行的话,我很乐意使用基于 Python 的系统来实现此目的。

我目前正在使用名为 iSearch2 的东西。在这个规模上它似乎不太稳定,产品的描述表明它并不是真的打算做多个站点,它是用 PHP 编写的(对我来说,它不如 Python 舒服),并且对于我的具体情况还有一些其他缺点情况。

最佳答案

如果你正在寻找一个纯Python搜索引擎,你可以看看whoosh 。 Whoosh 的问题在于它速度慢且功能不全。如果您的网站没有获得太多流量,那也没关系,但您可能需要更强大的东西来进行生产。

话虽如此,我喜欢使用 Xapian及其 python bindings 。它非常快速且易于设置。

您还可以使用 solr其中有 python api 。 Solr 是用 Java 编写的,但不要让它欺骗了您,因为它是这群中表现最好的。您只需运行一个 Java 服务器即可使其正常工作。

由于我使用 Django,我可以集成 haystack到我的项目中,这使得切换搜索引擎变得很容易。我将使用 Whoosh 进行开发,因为它设置起来既简单又快速(它可以安装在 virtualenv 中),但根据我的需要使用 Xapian 或 Solr 进行部署以进行生产。

关于python - 搜索引擎推荐100个站点约4000个页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2715733/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com