elasticsearch - ElasticSearch随机分数与提升相结合？-6ren

elasticsearch - ElasticSearch随机分数与提升相结合？

转载作者：行者123 更新时间：2023-12-02 22:13:24

25

4

我正在使用Firebase构建iOS应用，并使用ElasticSearch作为搜索引擎来获取更多高级查询。

我正在尝试建立一个可以基于查询从索引中获取随机记录的系统。我已经使用带有种子的“random_score”函数来完成此工作。

因此，所有文档现在都应具有相同的被选择机会。是否可以添加增强功能(对不起，我是ES新手)？

假设文档具有字段“boost_enabled”并将其设置为true，则文档被选择的可能性将增加3倍，因此“增加”被随机选择的机会吗？

因此，从理论上讲，它应如下所示:

符合查询条件的文件:

"document1"
"document2"
"document3"

他们都有平等的机会被选中(33％)

我希望实现的是如果“document1”具有字段“boost_enabled” = true

它看起来应该像这样:

"document1"
"document1"
"document1"
"document2"
"document3"

因此，现在选择“document1”作为随机记录的可能性要高3倍。

非常感谢您的帮助。

编辑:

我想出了类似的东西，对吗？我很确定那不是...

"query" : {
        "function_score": {
            "query": {
                "bool" : {
                    "must": {
                        "match_all": {}
                    },
                    "should": [
                        { "exists" : {
                            "field" : "boost_enabled",
                            "boost" : 3
                            }
                        }
                    ]
                    "filter" : filterArray
                 }
            },

            "functions": [
                {
                    "random_score": {"seed": seed}
                }
            ]
        }
    }

/疯子

最佳答案

是的，Elasticsearch有类似的东西-请参阅Elasticsearch: Query-Time Boosting。

在您的情况下，您的查询中有一部分会记录您所描述的标志的存在，并且此“子查询”将得到增强。带有bool子句的should可能会有用。

注意:这并不完全像说匹配文件是n倍的结果

编辑:

-

编辑1:

Elasticsearch会通过
Explain API在调整参数时可能会有所帮助。

-

编辑2:

对于上述内容，我深表歉意。经过进一步的思考和探索，我认为boost参数并不是这里所需要的。 function_score已经有了权重的概念，但即使这样也不够。我发现其他用户的需求与您的需求相似，但是似乎没有针对此提出任何好的解决方案。

引用文献:

Elasticsearch Github Issue on Weighted Random Sampling

Stackoverflow Post with a Request Identical to Github Issue

我认为这些职位提出的解决方案是不正确的。我整理了一个快速的shell脚本，命中了Elasticsearch REST API，并依靠 jq(用于处理JSON的流行CLI)来演示: Github Gist: Flawed Attempt At Weighed Random Sampling with Elasticsearch

在脚本中， featured_flag等同于您的 boost_enabled，并且 undesired_flag在那里演示了如何仅考虑索引中文档的子集。您可以将脚本调整全局变量复制到脚本顶部，例如Elasticsearch服务器，索引等，以进行尝试。
有关脚本的一些注意事项:

脚本创建一个启用了featured_flag的文档和一个启用了undesired_flag的文档，这些文档永远都不要选择

TOTAL_DOCUMENTS可用于调整创建的文档总数(包括创建的前两个文档)

FEATURED_FLAG_WEIGHT是在查询时通过function_score施加的权重

脚本重新运行相同的查询1000次，并输出关于每个创建的文档作为第一个结果

返回的次数的统计信息

我想您的索引中有许多没有“特征”或“增强”样本。根据上述要求，选择样本的概率取决于文档的权重(假设增强文档为3，其余文档为1)以及要考虑的所有有效文档的权重之和。因此，简单的权重，提升和随机性似乎不足

许多人已经考虑并发布了针对没有Elasticsearch的加权随机抽样任务的解决方案。这似乎是解释几种方法的好方法: electric monk: Weighted Random Distribution。许多算法细节在这里可能不太相关，但我认为它们很有趣。

我认为理想的解决方案将需要在Elasticsearch之外完成工作(无需深入研究创建Elasticsearch插件，计分器等)。这是我目前能想到的最好的方法:

文档中存储的数字权重字段(可以继续使用 bool(boolean) 字段，但这似乎更灵活)

通过使用我们需要的某些统计数据的聚合来使用初始查询命中Elasticsearch

可能是sum aggregation，用于文档概率

所需的权重之和

用来按权重获取文档计数的terms aggregation(例如:权重为1的m文档，权重为3的n文档)

在Elasticsearch之外(在应用程序中)，选择示例

生成一个随机数，范围为0到sum_of_weights -1

使用聚合结果和生成的随机数来选择一个索引(请参阅Elasticsearch之外的加权随机抽样的算法解决方案)，该索引的范围为0到total_valid_documents -1(称为selected_index)

再次单击Elasticsearch，使用适当的过滤器仅考虑有效文档，每次运行此过程时，sort参数可保证文档集的排序方式相同(可能按权重和文档ID排序)，而from参数集到selected_index

与所有这些稍有关系，我发布了一个略有不同的 write up。

关于elasticsearch - ElasticSearch随机分数与提升相结合？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45164568/

25

4

0

文章推荐： audio - 将每分钟的 MP3 导出为单独的 WAV

文章推荐： image - 了解ffmpeg背后的概念

文章推荐： Elasticsearch 内联脚本 : can we use ctx. _source 字段在 "params"

elasticsearch - ElasticSearch:安装插件后，elasticsearch-head
我在这里有一个问题，我不知道这是否正常。但是我认为这里有些湖，安装插件elasticsearch-head之后，我在浏览器中启动url“http://localhost:9200/_plugin/h
elasticsearch - 如何添加到不同的字段值并将其存储在 Elasticsearch python中的另一个字段中( Elasticsearch 字段操作)
我写了这个 flex 搜索查询: es.search(index=['ind1'],doc_type=['doc']) 我得到以下结果: {'_shards': {'failed': 0, 'skip
elasticsearch - Elasticsearch.Net.ElasticSearch.Path已弃用，我应该改用什么？
在ElasticSearch.Net v.5中，存在一个属性 Elasticsearch.Net.RequestData.Path ，该属性在ElasticSearch.Net v.6中已成为depr
elasticsearch - 更改 elasticsearch.yml 后重新加载 elasticsearch
如何让 elasticsearch 应用新配置？我更改了文件 ~ES_HOME/config/elasticsearch.yml 中的一个字符串: # Disable HTTP completely:
elasticsearch - Elasticsearch 部分子串搜索
我正在尝试使用以下分析器在 elastic serach 7.1 中实现部分子字符串搜索 PUT my_index-001 { "settings": { "analysis": {
elasticsearch - elasticsearch 是如何处理不同任务的优先级的？
假设一个 elasticsearch 服务器在很短的时间内接收到 100 个任务。有些任务很短，有些任务很耗时，有些任务是删除任务，有些是插入和搜索查询。 elasticsearch 是如何决定先运行
elasticsearch - Elasticsearch 中的聚合日期范围过滤值
我需要根据日期过滤一组值(在此处添加字段)，然后按 device_id 对其进行分组。所以我正在使用以下东西: { "aggs":{ "dates_between":{ "fi
elasticsearch - 按星期几和时间过滤 Elasticsearch
我在 Elasticsearch 中有一个企业索引。索引中的每个文档代表一个业务，每个业务都有business_hours。我试图允许使用星期几和时间过滤营业时间。例如，我们希望能够进行过滤，以显示我
elasticsearch - Elasticsearch 类型过滤器中的多种类型
我有一个这样的过滤查询 query: { filtered: { query: { bool: { should: [{multi_match: {
elasticsearch - Elasticsearch 中的匹配短语查询中的单个单词是否有字符限制？
Elasticsearch 相当新，所以可能不得不忍受我，我遇到了一个问题，如果我使用 20 个字符或更少的字符搜索文档，文档会出现，但是查询中同一个单词中的任何更多字符，我没有结果: 使用“苯氧甲基
elasticsearch - ElasticSearch 中字符串数组与串联字符串的内部结构
我试图更好地理解 ElasticSearch 的内部结构，所以我想知道 ElasticSearch 在内部计算以下两种情况的术语统计信息的方式是否存在任何差异。第一种情况是当我有这样的文件时: {
elasticsearch - ElasticSearch 中现有字段的补全建议
在我的 elasticsearch 索引中，我索引了一堆工作。为简单起见，我们只说它们是一堆职位。当人们在我的搜索引擎中输入职位时，我想“自动完成”可能的匹配。我在这里调查了完成建议:http://
elasticsearch - Elasticsearch 中多字段和复制到的区别？
我在很多映射中使用多字段。在 Elastic Search 的文档中，指示应将多字段替换为“fields”参数。参见 http://www.elasticsearch.org/guide/en/ela
elasticsearch - Elasticsearch 中的过滤方面
我有如下查询， query = { "query": {"query_string": {"query": "%s" % q}}, "filter":{"ids
elasticsearch - Elasticsearch 日期范围聚合
我有一个Json数据 "hits": [ { "_index": "outboxprov1", "_type": "deleted-c
elasticsearch - Elasticsearch 中的大小参数
这可能是一个初学者的问题，但我对大小有一些疑问。根据 Elasticsearch 规范，大小的最大值可以是 10000，我想在下面验证我的理解: 示例查询: GET testindex-2016.0
elasticsearch - Elasticsearch 滚动行为
我在 Elastic Search 中发现了滚动功能，这看起来非常有趣。看了那么多文档，下面的问题我还是不清楚。如果偏移量已经存在那么为什么要使用滚动？即将到来的记录呢？假设它完成了所有数据的滚动
elasticsearch - Elasticsearch 不区分大小写
我有以下基于注释的 Elasticsearch 配置，我已将索引设置为不被分析，因为我不希望这些字段被标记化: @Document(indexName = "abc", type = "efg
elasticsearch - elasticsearch:单个索引中的多种类型
我正在尝试在单个索引中创建多个类型。例如，我试图在host索引中创建两种类型(post，ytb)，以便在它们之间创建父子关系。 PUT /ytb { "mappings": { "po
elasticsearch - ElasticSearch 中的动态模板失败
我尝试创建一个简单的模板，包括一些动态模板，但我似乎无法为文档编制索引。我得到错误: 400 {"error":"MapperParsingException[mapping [_default_]

首页

博学

6Ren·AI

商城

elasticsearch - ElasticSearch随机分数与提升相结合？