gpt4 book ai didi

elasticsearch - 带有 Word nGrams 的多词术语向量?

转载 作者:行者123 更新时间:2023-11-29 02:54:25 24 4
gpt4 key购买 nike

我的目标是为每个文档建立一个索引,将按单词 ngram(uni、bi 和 tri)对其进行分解,然后捕获所有这些单词 ngram 的术语向量分析。使用 Elasticsearch 可以吗?

例如,对于包含“The red car drives”的文档字段。我将能够获取信息:

red - 1 instance
car - 1 instance
drives - 1 instance
red car - 1 instance
car drives - 1 instance
red car drives - 1 instance

提前致谢!

最佳答案

假设您已经知道 Term Vectors api你可以申请shingle token filter在索引时将这些术语添加为在 token 流中彼此独立。

min_shingle_size 设置为 1(而不是默认的 2),并将 max_shingle_size 至少设置为 3(而不是默认的 2)

基于您在可能的术语中遗漏了“the”这一事实,您应该使用 stop words filter在应用带状疱疹过滤器之前。

分析器设置应该是这样的:

{
"settings": {
"analysis": {
"analyzer": {
"evolutionAnalyzer": {
"tokenizer": "standard",
"filter": [
"standard",
"lowercase",
"custom_stop",
"custom_shingle"
]
}
},
"filter": {
"custom_stop": {
"type": "stop",
"stopwords": "_english_",
"enable_position_increments":"false"
},
"custom_shingle": {
"type": "shingle",
"min_shingle_size": "1",
"max_shingle_size": "3"
}
}
}
}
}

您可以使用 _analyze api endpoint 测试分析器.

关于elasticsearch - 带有 Word nGrams 的多词术语向量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27387231/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com