gpt4 book ai didi

python - 如何使用 Whoosh 获取文档内容的词袋表示?

转载 作者:太空宇宙 更新时间:2023-11-03 16:54:13 24 4
gpt4 key购买 nike

我有一个如下所示的索引架构:

schema = Schema(
title=TEXT(stored=True),
content=TEXT,
id=ID,
topicID=NUMERIC,
)

我首先使用searcher.documents(topicID=t)获取主题t的文档。这会返回命中。我想获取点击 content 字段的词袋表示。例如 [(u'This',1),(u'is',1),(u'a',1),(u'document',1)] content=u'这是一个文档'

如果有一种方法可以在 Whoosh 中更普遍地获得词袋表示(或 TF-IDF) - 也许是文档而不是点击 - 这也是可以接受的。

编辑:我想要一种解决方案,可以在索引时预处理词袋/TF-IDF,然后获取表示是单行函数或变量。每次我想要表示时,而不是实时进行处理。

最佳答案

whoosh.reading.IndexReader中有为此实现的功能:

要遍历所有索引术语的列表,请使用:

关于python - 如何使用 Whoosh 获取文档内容的词袋表示?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35591302/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com