gpt4 book ai didi

python - 如何高效地查找文档中的短语

转载 作者:行者123 更新时间:2023-12-01 06:11:02 24 4
gpt4 key购买 nike

我有一个很大的短语列表(单个和多个单词;一些重叠)并且我有很多文档。最后,我只想存储每个文档的短语列表(来自大型短语列表),而不是整个文档。实现这一目标的有效方法是什么? (最好是Python)

示例:

phrase_list = ['cat', 'dog', 'tree', 'tree house'] // actually a few thousend if not million

// a list of a few thousend documents with longer text
doc_dictionary = {'doc1':"""the cat sat under the tree""",
'doc2':"""the dog chased the cat""",
'doc3':"""the boy loves his tree house"",}

result_dict = {'doc1': ['cat','tree'], 'doc2': ['dog', 'cat'], 'doc3': ['tree house']}

最佳答案

听起来您需要一个索引器和搜索引擎,例如 Lucene for Java。也许PyLucene端口会有帮助。

关于python - 如何高效地查找文档中的短语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5901491/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com