gpt4 book ai didi

elasticsearch - 部分和完整的短语匹配

转载 作者:行者123 更新时间:2023-11-29 02:52:08 25 4
gpt4 key购买 nike

假设我有一句话:“约翰喜欢在他的Lamborghini Huracan中带他的宠物lamb而不是在他的Lamborghini Gallardo中”和我有一本包含“Lamborghini”、“Lamborghini Gallardo”和“Lamborghini Huracan”的字典。什么是提取粗体术语的好方法,实现术语“Lamborghini Gallardo”和“Lamborghini Huracan”作为短语匹配,以及其他部分匹配“Lamborghini”和“lamb”?优先考虑短语匹配而不是单个关键字。

Elastic search 提供精确的术语匹配、匹配词组和部分匹配。确切的术语在这里显然不起作用,而且也不匹配短语,因为在这种情况下整个句子被视为短语。我相信如果我在句子中只有感兴趣的关键词,部分匹配是合适的。通过以前的 SO 线程,我找到了 proximity for relevance这似乎是相关的,但不确定这是否是“最佳选择”,因为需要设置阈值。或者即使有比 elasticsearch 更简单/更好的选择(这似乎更适合全文搜索而不是简单的关键字匹配到数据库)?

最佳答案

听起来您想使用受控词汇(您的行业术语和短语词典)从您的文档中执行关键短语提取

[上面的斜体术语可帮助您在 SO 和 Google 上找到相关答案]


此级别的分析将您带出搜索堆栈,进入自然语言处理堆栈。由于 NLP 往往是资源密集型的,因此它倾向于离线进行,或者在搜索应用程序的情况下,在索引时进行。

要实现这一点,您需要:

  1. 关键短语提取工具集成到您的搜索索引代码中,为每个文档生成可识别的关键短语列表。
  2. 将这些关键短语索引为 shingles进入一个新的 Elasticsearch 领域。
  3. 在查询时搜索的字段列表中包含这个叠瓦式关键字字段 - 很可能会提高分数。

要获得可帮助您控制关键词提取的速赢工具,请查看 KEA (用java编写)。

(您也可以自己编写,但如果您也希望提取不受控制的关键短语(不在字典中),那么训练有素的提取器会更好地为您服务。More tools here。)

关于elasticsearch - 部分和完整的短语匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39441226/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com