gpt4 book ai didi

python - 如何存储标记化的结果以供进一步索引?

转载 作者:太空宇宙 更新时间:2023-11-04 06:20:24 26 4
gpt4 key购买 nike

我完全是个初学者,现在正尝试用 python 实现一个简单的搜索引擎

我通过 NLTK 中使用的函数很好地完成了 tokenizer。但我现在对存储分词器的结果感到困惑。我需要保留它们以供进一步索引。

执行此操作的常用方法是什么?我应该使用什么样的数据库?

最佳答案

Introduction to Information Retrieval由 Manning、Raghavan 和 Schütze 撰写,用几章专门介绍索引构建和存储; Modern Information Retrieval也是如此作者:Baeza-Yates 和 Ribeiro-Neto。

不过,对于一个简单的爱好/学习项目,SQLite足以用于索引存储。您需要一个包含 (term, document-id, frequency) 三元组的表来计算 tf 和一个存储 (term, df) 对的表,两者都带有术语索引;这足以计算 tf-idf。

关于python - 如何存储标记化的结果以供进一步索引?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12783582/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com