gpt4 book ai didi

python - 将网络爬虫与 Django 前端连接

转载 作者:行者123 更新时间:2023-11-28 21:30:54 24 4
gpt4 key购买 nike

我正在尝试做三件事。

一:至少每天抓取并归档一组预定义的网站。

二:对此数据运行过夜批处理 python 脚本(文本分类)。

三:向用户公开基于 Django 的前端,让他们搜索爬取的数据。

我一直在使用 Apache Nutch/Lucene,但是当我可以使用另一个爬虫引擎时,让它与 Django 很好地配合似乎太困难了。

问题950790建议我可以在 Django 本身中编写爬虫,但我不知道如何去做。

基本上 - 有任何关于在 Django 中编写爬虫程序或我可以适应的现有 python 爬虫程序的指示吗?或者我应该在第二步中加入“变成 Django 友好的东西”并编写一些粘合代码?或者,最后,我应该完全放弃 Django 吗?不过,我确实需要一些可以从前端快速搜索的东西。

最佳答案

如果将 django 项目的应用程序目录插入 sys.path,则可以编写利用 Django ORM 功能的标准 Python 脚本。我们有一个/admin/目录,其中包含执行各种任务的脚本 - 每个脚本的顶部都有一个 block ,如下所示:

sys.path.insert(0,os.path.abspath('../my_django_project'))
sys.path.insert(0,os.path.abspath('../'))
sys.path.insert(0,os.path.abspath('../../'))
os.environ['DJANGO_SETTINGS_MODULE'] = 'settings'

然后,只需使用您选择的工具来抓取网络并使用 Django 数据库 API 来存储数据即可。

关于python - 将网络爬虫与 Django 前端连接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/971660/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com