gpt4 book ai didi

lucene - Solr 常见关键字/短语

转载 作者:行者123 更新时间:2023-12-02 06:39:46 26 4
gpt4 key购买 nike

我通过 PHP 使用 Solr 来搜索我网站的各个方面。我正在尝试实现一项功能,但找不到任何有关如何实现它的信息。

我有一组文档(评论),每个文档都与特定产品有关。

我想找到出现在单个产品的多条评论中的唯一 1-2 个单词关键字(无停用词),并统计它们出现在的评论数量。

一旦我有了这些,我想显示前 X 个关键字、它们所在的评论数量,以及每个评论的一条最高评论,突出显示了该关键字的使用。

编辑:

一旦我有了出现在多条评论中的唯一(非停用词/常用词)关键字列表,我想根据它们在评论中出现的次数对它们进行排名。例如,如果人们正在撰写有关相机的评论,关键字可能会如下所示:

昂贵(出现在 7 条评论中)快门速度(出现在 5 条评论中)形象不佳(出现在 3 条评论中)

一旦我按照评论数量对这些关键字进行了排名,我想为每个关键字选择 1 条评论,并显示突出显示该关键字的这些评论。例如:

“...不幸的是,这款相机对于您所得到的来说太贵了...”(共 7 条评论)“……快门速度对于……来说太慢了”(共 5 条评论)“...糟糕的图像质量是这款相机最大的缺点...”(共 3 条评论)

至于什么时候运行这个,我仍然不确定。可能是实时的(当您查看产品时,然后缓存 X 时间),每当发布新评论时,标记要更新的产品,或每天执行 cronjob 等。它不会同时针对所有关键字运行,它将针对单个产品的所有评论中的所有关键字运行。然后对每个产品重复此操作。

希望这更有意义。

任何有关如何在 Solr 中实现此目的的帮助将不胜感激。

最佳答案

在我看来,您正在寻找的是 ShingleFilter .您可以使用它来生成一元组/二元组(可能带有复制字段),然后获取这些标记的统计信息以生成您的界面。

关于lucene - Solr 常见关键字/短语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4965146/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com