search - Solr - 如何以复合 "word-1, word-1 + word-2, word-1 + word-2 ... word-n"方式标记字符串中的单词？-6ren

search - Solr - 如何以复合 "word-1, word-1 + word-2, word-1 + word-2 ... word-n"方式标记字符串中的单词？

转载作者：行者123 更新时间：2023-12-04 15:14:58

28

4

我想标记一个字符串，例如 Best Beat Makers，以几乎类似于 NGram 的方式为每个单词生成标记，例如:

IN:  "Best Beat Makers"
OUT: ["Best", "Beat", "Makers", "Best Beat", "Best Beat Makers"]
                                     ^               ^
                                     |               |
                              How can I generate these tokens?

结果应该不包括“Beat Makers”，因为我只想以复合方式标记单词(例如 word1、word1 + word2、word1 + word2 + word3等)而不是组合(例如 word1、word1 + word2、word2 + word3 等)。

目前，我只能使用 StandardTokenizerFactory 或 ClassicTokenizerFactory 生成前三个标记，而传统的 NGramTokenizerFactory 仅适用于字符一个词(并且在索引上有点昂贵)。

我考虑过的一个选项是使用 StandardTokenizerFactory 获取前三个标记，然后创建一个 copyField 到另一个使用 PatternTokenizerFactory 的字段> 定义了一个正则表达式来获取最后两个标记，但如果可能的话，我更愿意只使用一个字段来获取我需要的标记。

如果您更熟悉 ElasticSearch，我仍然想听听您的想法，因为 Solr 和 ES 之间的分词器或多或少相似，可能会把我推向正确的方向。谢谢!

最佳答案

叠式过滤器:此过滤器从 token 流构造带状符号，它们是 token n-gram。它将 token 运行组合成一个 token 。

您还可以使用以下属性。

maxShigleSize:(整数，必须 >= minShigleSize，默认为 2)每个 shingle 的最大 token 数。

这里是应用的字段类型。

<fieldType name="text_tokens" class="solr.TextField" positionIncrementGap="100">
        <analyzer>
            <tokenizer class="solr.StandardTokenizerFactory"/>
            <filter class="solr.ShingleFilterFactory" maxShingleSize="3" outputUnigrams="true"/>
        </analyzer>
    </fieldType>

输入是:“欢迎使用 Apache Solr”

预期的输出是:

Unigram: "Welcome", "to", "Apache", "Solr"
Bigram: "Welcome to", "to Apache", "Apache Solr"
Trigram: "Welcome to Apache", "to Apache Solr"

下面是你分享的文字分析。

输入是:Best Beat Makers

关于search - Solr - 如何以复合 "word-1, word-1 + word-2, word-1 + word-2 ... word-n"方式标记字符串中的单词？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64492024/

28

4

0

文章推荐： chm - 如何通过命令行创建具有多个目录的 chm 文件？

文章推荐： prolog - Prolog 有 "if and only if"运算符吗？

文章推荐： c++ - 您可以在不强制转换的情况下对枚举类使用按位运算符吗？

javascript - 构建搜索应用程序时什么最有效 : search:search or cts:search?
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 4 年前。 Improve
search - 自动包装 I-search？
在 Vim 中，我可以:set wrapscan，这样当我进行增量搜索时，无论第一个匹配项位于光标上方还是下方，光标都会跳转到第一个匹配项。在 Emacs 中，如果我通过 C-s 开始搜索，如果第一
search - Elastic Search 和 Google Search Appliance 页面排名之间的区别
Elasticsearch 中的页面排名是如何工作的。一旦我们创建了一个索引，就会有一个底层智能层创建一个元数据存储库并提供结果以根据相关性进行查询。我已经创建了几个索引，我想知道在提供查询后结果是如
search - Elastic Search 在多次运行相同查询时返回不一致的结果
我们在单个节点上使用 Elasticsearch 对数据进行了索引。我们在后台运行了一个线程，用于使用最近的更改更新索引。现在我们使用 Elasticsearch API 来运行搜索查询。 {
search - twitter search api没有OR结果
这突然停止工作，正在工作，但现在却没有: 如果我使用Twitter UI并转到: https://twitter.com/#!/search/%22social%20snap%22%20OR%20%
java - Hibernate-search:通过在 hibernate-search 中以编程方式注册字段，基类字段未在 elastic-search 中注册
我在基类中声明了某些字段，并且我想仅为某些子类(实体)注册这些字段。因此，我不想通过 @Field 注释基类中的这些字段，尽管只需以编程方式注册某些实体就足够了。但是在基本实体中声明的字段未注册/
full-text-search - 优势数据库 : Full Text Search not returning results that start with the search string
我的全文搜索索引有问题。我有一个字符字段大小为 30 的表。我在这个字段上创建了一个全文搜索索引，以便在这个不区分大小写的字段上进行快速搜索操作。现在，当我执行以下查询时:SELECT fieldna
search - SandcaSTLe 帮助构建器: Search Functionality
我对SandCaSTLe的输出感到非常满意，但我也想在HTML输出中包含一些搜索功能，这可能吗？最佳答案 SandCaSTLe帮助文件生成器的网站输出包含 index.aspx 和 index.ht
search - Apache Lucene与Google Search Appliance
有没有人遇到过Apache Lucene的功能？我听说它甚至可以与Google Search Appliance(GSA)相提并论。我正在寻找两者之间的明确比较，如果可能的话？在线上进行的比较非常模
search - “Find”和 “Search”之间的语义差异？
在构建应用程序时，“查找”与“搜索”之间有什么有意义的区别吗？您是否将它们视为同义词？我在询问应用程序UI和API设计的标签方面。最佳答案查找是搜索的完成。如果您可能无法成功找到某些东西，则将
search - 谷歌图片搜索: search similar images
我想编写一个移动应用程序，它可以拍照并在谷歌图像中搜索类似的图片，然后显示结果。但是，使用谷歌图像搜索我只能搜索文本字符串，而使用搜索 API 似乎无法搜索相似图片；此功能似乎只能通过网络界面使用。
search - "Search More..."在我的 Many2one 字段中
当我从 Many2one 列表框中选择一个项目时，我想要进行高级搜索。例如，此功能是针对“res.groups”对象实现的。我在/addons 中找不到此功能。更准确地说，我定义了我的对象 clas
search - Amazon Cloud Search - 按时间和日期获取地点
我正在使用 Amazon CloudSearch 存储大量地点。每个地方在一周中的每一天都有开放时间和关闭时间。我需要按当前时间检索地点。您如何建议对索引进行建模？我想通过创建 7 个文本索引来解决
search - 执行 "related searches"功能的方法
我见过一些网站，当您执行搜索时会列出相关搜索，即它们会建议您可能感兴趣的其他搜索查询。我想知道在中型网站中对此进行建模的最佳方法(没有足够的流量来依赖访问者统计数据来推断关系)。我最初的想法是存储每
search - Sitecore Search Api - 如何获取格式化的网址
如何从 Sitecore Lucene 搜索中获取格式化的 url？我创建了一个自定义索引，并在根目录下将其更新为/sitecore/content/websitename/home。检索到搜索结果
search - Vim 状态行 : Word search
我一直在努力寻找这个并且无法找到我想要的东西。在我的状态行上，我想要计算当前文件中出现的匹配数。下面的 vim 命令返回我想要的。我需要返回的号码显示在我的状态行中。 :%s/^I^I//n vim
search - "The specified CFC search could not be found"
我们有自己的服务器与应用程序一起工作。我们开始使用不同的提供商进行托管，现在我们遇到了上述错误。关于同页面，这有效: 但是这个不我们无法弄清楚为什么会这样。您
700. Search in a Binary Search Tree 二叉搜索树中的搜索
题目地址：https://leetcode.com/problems/search-in-a-binary-search-tree/description/ 题目描述 Given the root
search - 传单控件搜索 : open Popup for search result
我正在使用很棒的插件 Leaflet.Control.Search为了在我的 map 上搜索标记(来自 geoJson 标记组)——效果很好。我现在只有一个简单的问题:如何打开搜索结果标记的弹出窗口
search - TYPO3 后端 : search custom records
我开发了一个允许创建新记录的扩展。在列表模块中，在记录列表下，有搜索表单。例如，它适用于 fe 用户，但不适用于我的自定义记录。是否必须在我的 tca 中添加任何特殊配置才能使此表单与我的自定义

首页

博学

6Ren·AI

商城

search - Solr - 如何以复合 "word-1, word-1 + word-2, word-1 + word-2 ... word-n"方式标记字符串中的单词？