elasticsearch - 全文搜索Elasticsearch中的完全match_phrase(带有前导和尾随空格)-6ren

elasticsearch - 全文搜索Elasticsearch中的完全match_phrase(带有前导和尾随空格)

转载作者：行者123 更新时间：2023-12-02 22:20:35

24

4

我是Elasticsearch的新手，这是我的任务。

给定我的索引:

{
   "my_index": {
      "mappings": {
         "_default_": {
            "_all": {
               "enabled": false
            },
            "properties": {}
         },
         "title": {
            "_all": {
               "enabled": false
            },
            "properties": {
               "foo_id": {
                  "type": "long"
               },
               "title": {
                  "type": "string",
                  "analyzer": "english"
               }
            }
         }
      },
      "settings": {
         ...
      }
   }
}

和样本记录:

{"foo_id": 777, "title": "Equality"}
{"foo_id": 777, "title": "First Among Equals"}
{"foo_id": 777, "title": "AN EQUAL MUSIC"}

我想搜索必须满足以下条件的记录:

有foo_id == 777

包含不区分大小写的单词“等于”

意思是，我必须只找到第三条记录，其中包含确切的短语“等于”。包含单词“equality”和“equals”的标题不得返回。我想避免诉诸正则表达式。

我尝试过这样的搜索:

{
  "query": {
    "bool": {
      "must": [
        {"term": {"account_id": 777}},
        {"match_phrase": {"title": "equal"}}
      ]
    }
  }
}

但它会返回所有三个结果。

另一个问题:鉴于我不在乎结果的相关性，我如何以最有效的方式获得结果？我应该使用 search_type='scan'滚动还是过滤？摘录会很好。谢谢。

最佳答案

这是您可以做到的一种方法。如果您取出英语分析仪，则会使用standard analyzer代替，它似乎为您提供了想要的东西。

curl -XPUT "http://localhost:9200/my_index" -d'
{
    "settings": {
        "number_of_shards": 2, 
         "number_of_replicas": 1
      },
      "mappings": {
         "_default_": {
            "_all": {
               "enabled": false
            },
            "properties": {}
         },
         "title": {
            "_all": {
               "enabled": false
            },
            "properties": {
               "foo_id": {
                  "type": "long"
               },
               "title": {
                  "type": "string"
               }
            }
         }
      }
}'

然后添加文档:

curl -XPUT "http://localhost:9200/my_index/title/1" -d'
{"foo_id": 777, "title": "Equality"}'
curl -XPUT "http://localhost:9200/my_index/title/2" -d'
{"foo_id": 777, "title": "First Among Equals"}'
curl -XPUT "http://localhost:9200/my_index/title/3" -d'
{"foo_id": 777, "title": "AN EQUAL MUSIC"}'

然后，您可以使用 constant score查询来避免额外的计算(如果您不关心结果的排名)，并结合使用 must bool filter获得所需的结果:

curl -XPOST "http://localhost:9200/my_index/_search" -d'
{
  "query": {
    "constant_score": {
       "filter": {
           "bool": {
               "must": [
                  {"term": {
                     "foo_id": 777
                  }},
                  {"term": {
                     "title": "equal"
                  }}
               ]
           }
       }
    }
  }
}'

产生:

{
   "took": 1,
   "timed_out": false,
   "_shards": {
      "total": 2,
      "successful": 2,
      "failed": 0
   },
   "hits": {
      "total": 1,
      "max_score": 1,
      "hits": [
         {
            "_index": "my_index",
            "_type": "title",
            "_id": "3",
            "_score": 1,
            "_source": {
               "foo_id": 777,
               "title": "AN EQUAL MUSIC"
            }
         }
      ]
   }
}

这是我使用的代码:

http://sense.qbox.io/gist/179d737edf1de964090746a2fdae5ad52c935b31

编辑:如果您希望既可以使用英语分析器又可以使用标准分析器(或其他某些分析器，或者不使用，通常是分面或排序)，则可以使用 multi_field(不赞成使用的名称)作为如下:

curl -XPUT "http://localhost:9200/my_index" -d'
{
   "settings": {
      "number_of_shards": 2,
      "number_of_replicas": 1
   },
   "mappings": {
      "_default_": {
         "_all": {
            "enabled": false
         },
         "properties": {}
      },
      "title": {
         "_all": {
            "enabled": false
         },
         "properties": {
            "foo_id": {
               "type": "long"
            },
            "title": {
               "type": "string",
               "analyzer": "english",
               "fields": {
                  "unstemmed": {
                     "type": "string",
                     "analyzer": "standard"
                  }
               }
            }
         }
      }
   }
}'

现在，如果您使用 { "term": { "title": "equal" } }搜索，您将获得全部三个文档，但是如果您使用 { "term": { "title.unstemmed": "equal" } }，您将获得所需的内容:

curl -XPOST "http://localhost:9200/my_index/_search" -d'
{
   "query": {
      "constant_score": {
         "filter": {
            "bool": {
               "must": [
                  {
                     "term": {
                        "foo_id": 777
                     }
                  },
                  {
                     "term": {
                        "title.unstemmed": "equal"
                     }
                  }
               ]
            }
         }
      }
   }
}'
...
{
   "took": 2,
   "timed_out": false,
   "_shards": {
      "total": 2,
      "successful": 2,
      "failed": 0
   },
   "hits": {
      "total": 1,
      "max_score": 1,
      "hits": [
         {
            "_index": "my_index",
            "_type": "title",
            "_id": "3",
            "_score": 1,
            "_source": {
               "foo_id": 777,
               "title": "AN EQUAL MUSIC"
            }
         }
      ]
   }
}

这是代码:

http://sense.qbox.io/gist/40a145e94fd8e47b875525c7e095024f025dd1ab

关于elasticsearch - 全文搜索Elasticsearch中的完全match_phrase(带有前导和尾随空格)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27640644/

24

4

0

文章推荐： c# - 如何设置 ffmpeg 管道输出？

文章推荐： elasticsearch - 提高跨度

文章推荐：标记化字段上的 ElasticSearch 术语聚合

文章推荐： elasticsearch - 在ElasticSearch搜索查询中获取文档的所有字段

svn - 搜索颠覆历史(全文)
有没有办法对 Subversion 存储库执行全文搜索，包括所有历史记录？例如，我编写了一个在某处使用过的功能，但后来不需要它，所以我对文件进行了 svn rm'd，但现在我需要再次找到它以将其用于
MySQL - 通过部分单词匹配和相关性评分进行高效搜索(全文)
如何进行 MySQL 搜索，既匹配部分单词，又提供准确的相关性排序？ SELECT name, MATCH(name) AGAINST ('math*' IN BOOLEAN MODE) AS rel
postgresql - 全文 Postgres
我在 postgresql 中创建了一个用于全文搜索的索引。 CREATE INDEX pesquisa_idx ON chamado USING gin(to_tsvector('portugues
Mysql 未对结果进行排名，全文
我已经设置了一个数据库并启用了全文搜索，当我使用以下内容搜索数据库时，数据库中有一些条目包含“测试”一词，还有一个条目包含“测试更多”: SELECT keywords, title FROM dat
具有特定词序的 MySQL 全文
我想知道是否可以进行 MATCH() AGAINST()(全文)搜索，使得不直接相邻的单词需要按特定顺序排列？在我的网站上，当用户在双引号之间键入单词时，搜索将仅显示具有特定顺序的这些单词的结果。例如
MYSQL 全文 - 意外结果
我有一个 80,000 行的数据库，当我测试一些 FULLTEXT 查询时，我遇到了一个意想不到的结果。我已从 MYSQL 中删除停用词并将最小字长设置为 3。当我执行此查询时: SELECT `s
MySQL - 查找部分字符串 - 全文？
我刚刚在我的 MYSQL 数据库中发现了一堆流氓数据... 到达它的唯一方法是通过其中一列 - FILE_PATH，其中包含文件路径的斜杠剥离版本。我需要在这组文件中找到一些恶意文件——它们的文件名都
带词干的 MySQL 全文
我正在为我的站点构建一个小的搜索功能。我正在接受用户的查询，提取关键字，然后针对提取的关键字运行全文 MySQL 搜索。问题在于 MySQL 将词干视为文字。这是正在发生的过程: 用户搜索“棒球”之
database - (全文)搜索与数据库设计
这是一个关于使用(关系)数据库设计全文搜索的系统架构问题。我使用的具体软件是 Solr 和 PostgreSQL，仅供引用。假设我们正在构建一个有两个用户 Andy 和 Betty 的论坛 -- P
元素数组中的数组上的 MongoDB 全文
当元素数组中的数组包含应与我的搜索匹配的文本时，我无法检索文档。这里有两个示例文档: { _id: ..., 'foo': [ { 'name
mysql - 全文 : this query very slow
我正在使用这个查询，但不幸的是它运行缓慢: SELECT *, (MATCH(`title`) AGAINST ('$word' IN BOOLEAN MODE) * 2 + MATC
php - Mysql(全文？)搜索产品
我正在构建一个非常简单的产品目录，它将在 mysql 表中存储产品，我想尽快搜索产品(并尽可能相关)。产品数据库将非常大(大约 500.000 个产品)，这就是为什么使用“like”而不使用索引的搜索
Mysql 全文、匹配...和搜索字段中的@
select count(distinct email_address) from users WHERE MATCH (email_address) AGAINST ('@r
MySQL 全文 MATCH AGAINST 不适用于复数
我正在尝试在 mySQL 中进行简单的全文搜索，但在复数方面遇到一些问题。我确实相信我符合50% 规则。我不认为我使用了停用词。我正在运行这样的查询: SELECT * FROM product
mysql - 全文 InnoDB 搜索没有响应
我在 innoDB 数据库中使用全文搜索时遇到了一个大问题。首先，ns_pages 表有超过 2.6m 的记录，全文索引有 3 个键 block 。该数据库在具有 128GB RAM 的 Dell
MySQL 全文 : have a result weigh more
我有一个城市和州的数据库(大约 43,000 个)。我对其进行全文搜索，如下所示: select city, state, match(city, state_short, state) agains
Mysql 全文 50% 阈值
我正在使用带有自然语言全文的 Mysql FULLTEXT 搜索，不幸的是，我遇到了 FULLTEXT 50% 阈值，如果给定的关键字出现在总行数的 50% 时间，则不允许我搜索行。我搜索并找到了一
mysql - 全文 mysql 搜索不起作用
如果我搜索单词hello，那么我没有匹配到，而我搜索单词hella，那么我得到了匹配。同样的情况也发生在“Non”这个词上。我在 Mac 上的 MAMP 和 sqlfiddle.com 上进行了测试，
Postgresql 全文(pg_trgm)更好地处理精确匹配？
所以我有一个简单的场景。我有一张 field 表(事件 field 等)。我的查询看起来像: SELECT * FROM venues WHERE venues.name % 'Philips Are
MySQL 全文(非)搜索
我有一个表，其中有视频数据，如“标题”、“描述”等。我正在尝试使用 MySQL 全文索引编写一个搜索引擎。 SQL 查询适用于某些单词，但不是每个单词。这是我的 SQL 查询； SELECT * FR

首页

博学

6Ren·AI

商城

elasticsearch - 全文搜索Elasticsearch中的完全match_phrase(带有前导和尾随空格)