gpt4 book ai didi

django - 使用 Django 构建搜索引擎的建议

转载 作者:行者123 更新时间:2023-12-04 23:31:29 25 4
gpt4 key购买 nike

我是网络爬虫的新手。我将构建一个搜索引擎,让爬虫保存 Rapidshare 链接,包括 Rapidshare 链接找到的 URL……

换句话说,我要建立一个类似于 filestube.com 的网站。

经过一番搜索,我找到了Scrapy与 Django 一起工作。我试图找到关于 nutch 与 Django 的集成,但什么也没找到

我希望你能给我建立这种网站的建议……尤其是爬虫

最佳答案

最著名的可插拔应用程序是Django-Haystack它允许您连接到多个搜索后端:

  • Solr / Lucene符合流行语的 Apache 基金会项目
  • Whoosh原生python搜索库
  • Xapian另一个非常好的语义搜索引擎

  • haystack 允许您使用类似于 Django 自己的 Queryset 语法的 API 来直接使用这些搜索引擎(它们都恰好有自己的 API 和方言)。

    如果你只是在抓取工具 ,无论您使用什么工具: BeautifulSoup或 Scrappy,您将独自编写 Python 代码来解析您想要解析的内容,然后填充您的 django 模型。
    这甚至可以是单独的 python 脚本,在 commands.py 模块中可用。

    如果您有很多文件要搜索,您可能需要一个索引,该索引会经常重建并允许快速搜索而无需使用 django ORM。
    使用 Solr 索引(例如)使您能够即时创建其他字段,例如基于真实模型字段的虚拟字段(例如:拆分作者的名字和姓氏,添加大写的文件标题字段等)

    当然,如果您不需要快速索引、关键字提升或语义分析,您仍然可以对几个 django 模型字段 i 进行经典的全文搜索:
  • Django native QuerySet查看“__search('something')”字段查找
  • PostGreSQL-specific full text search与 Django
  • 关于django - 使用 Django 构建搜索引擎的建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4626863/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com