gpt4 book ai didi

通过 shingles 和 termvector 组件自动完成

转载 作者:行者123 更新时间:2023-12-04 04:55:39 24 4
gpt4 key购买 nike

实现类似 Google 的自动完成的方法之一是在 Solr 1.4 中结合 shingles 和 termvector 组件。

首先,我们使用 shingles 组件生成所有 n-gram 分布,然后使用 termvector 获得最接近用户术语序列的预测(基于文档频率)。

架构:

<fieldType name="shingle_text_fivegram" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="solr.LowerCaseTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="false" />
<filter class="solr.ShingleFilterFactory" maxShingleSize="5" outputUnigrams="false"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
</fieldType>

Solr 配置:

<searchcomponent name="termsComponent" class="org.apache.solr.handler.component.TermsComponent"/>
<requesthandler name="/terms" class="org.apache.solr.handler.component.SearchHandler">
<lst name="defaults">
<bool name="terms">true</bool>
<str name="terms.fl">shingleContent_fivegram</str>
</lst>
<arr name="components">
<str>termsComponent</str>
</arr>
</requesthandler>

通过上述设置,我需要将停用词放在 n-gram 边缘的任何位置,并将它们保留在 n-gram 序列内。

假设从序列“印度和中国”开始,我需要以下序列:

india
china
india and china

并跳过其余部分。

是否可以与其他 Solr 组件/过滤器结合使用?

UPD:这是 Lucene 4 中的一种可能解决方案(应该可以连接到 SOLR):

“您不能制作一个自定义停止过滤器,仅在输入的开头(看到的第一个标记)或输入的结尾(之后没有看到非停止词标记)删除停止词吗?它需要一些缓冲/state keeping (capture/restorteState) 但它看起来可行吗?” ——迈克尔·麦坎德利斯

来自:http://blog.mikemccandless.com/2013/08/suggeststopfilter-carefully-removes.html

最佳答案

在 Solr 1.4 中进行多词自动完成的最佳方法是使用 EdgeNGramFilterFactory,因为您需要在他/她键入时匹配用户输入。所以你需要匹配“i”、“in”、“ind”等来暗示印度。

关于通过 shingles 和 termvector 组件自动完成,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4954735/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com