gpt4 book ai didi

elasticsearch - 我们如何处理具有特定含义的 NULL 值?

转载 作者:行者123 更新时间:2023-11-29 02:47:35 31 4
gpt4 key购买 nike

问题

我正在尝试将 bool 值保存到 elasticsearch,但它是特别适用于它为 NULL。在这种情况下是一种无关紧要。

好像有好几种选择,但是还不完全清楚是什么最好的。

我们使用的是 ElasticSearch 5.0.2 版

选项 1

最简单的方法是将其保存为具有 NULL 值的 bool 值。那些将被 ES 视为“缺失”。

PUT my_index
{
"mappings": {
"my_type": {
"properties": {
"my_boolean": { "type": "boolean"}
}
}
}
}

PUT my_index/my_type/1
{"my_boolean": true}

PUT my_index/my_type/2
{"my_boolean": false}

PUT my_index/my_type/3
{"my_boolean": null}

这有几个问题,其中之一是聚合。没有似乎是获取值 truefalseNULL 的简单方法一个聚合。

我知道缺少功能,所以我知道我可以执行以下操作:

GET my_index/_search
{
"size":0,
"aggregations": {
"my_boolean": {
"terms": {
"field": "my_boolean"
}
},
"missing_fields": {
"missing" : {
"field": "my_boolean"
}
}
}
}

但这会导致一个桶有 2 个值(真/假)和一个单独的计算丢失的文件。这看起来会引起问题。

选项 2

另一种选择是实际上给 NULL 一个值,如 the manual .问题是值(value)需要是正确的类型,并且只有 true 和 false 作为 bool 值。

The null_value needs to be the same datatype as the field. For instance, a long field cannot have a string null_value.

这意味着我们可以使用支持超过 2 个值的不同类型,例如整数,但这在我的脑海中就像在说:让 map 它为整数,并定义 1 为 true,2 为 false,3 为 null。这会起作用,但我们会有一个所有人都应该知道的隐式映射关于。 (所有生产者/消费者/whatyamahaveits)。

选项 3

最终版本将尝试编写解决此问题的脚本。

GET my_index/_search
{
"size":0,
"aggregations": {

"my_boolean": {
"terms": {
"script" : {
"inline": "if(doc['my_boolean'].length === 1) { if(doc['my_boolean'].value === true){ return 1;} else {return 2;} } else { return 3;}"
}
}
}
}
}

现在我们确实在一些理智的桶中得到了正确的结果。

"aggregations": {
"my_boolean": {
"doc_count_error_upper_bound": 0,
"sum_other_doc_count": 0,
"buckets": [
{
"key": "1",
"doc_count": 1
},
{
"key": "2",
"doc_count": 1
},
{
"key": "3",
"doc_count": 1
}
]
}
}

请注意,我们在这里仍然有一个与键的隐式映射,所以这似乎有一些与将其映射为整数有。但是,你的数据类型应该是什么,所以可能是什么。请注意,我们不能有一个以“null”为键的桶。当然,我们可以称它们为“true”、“false”和“null”(字符串),但这同样的情况,只是隐藏的更多。

问题

处理这个 null 问题的最佳方法是什么?(或者我们应该称之为“三态 bool 问题”?)

澄清一下:我们担心稍后“非标准”值可能会导致问题。我们首先看到的是 bucketing,我们可以使用上面的脚本解决方案修复它,但也许我们稍后会遇到其他问题。因此,我们正在寻找保存此类数据的最佳做法,而不是针对特定问题的快速解决方案。

最佳答案

您可以使用 missing setting terms 聚合(即不是单独的 missing 聚合)。

那样的话,您可以继续使用您的 bool 字段并获得包含 0、1 和 -1(对于空值)的三个存储桶?

{
"size":0,
"aggregations": {
"my_boolean": {
"terms": {
"field": "my_boolean",
"missing": -1 <--- add this
}
}
}
}

它没有必须更改字段类型并将其编码为其他数据类型(整数/字符串)的缺点,而且还使您无需利用脚本,因为这不会很好地扩展。

关于elasticsearch - 我们如何处理具有特定含义的 NULL 值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41038142/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com