gpt4 book ai didi

elasticsearch - 如何将唯一的列数据插入elasticsearch?

转载 作者:行者123 更新时间:2023-12-03 02:02:03 25 4
gpt4 key购买 nike

我有一个网络爬虫,可抓取公司名称和公司联系电话,并插入到ElasticSearch中

问题是我点而不是想要重复的电话号码插入列

无论如何,我可以在Elasticsearch内部实现这一目标吗?

如果没有,是否有比以下步骤更好的解决方案

Fetch Record -> Check for Duplicate phone number -> Insert

最佳答案

为此,您需要一个unique token 过滤器:https://www.elastic.co/guide/en/elasticsearch/reference/1.6/analysis-unique-tokenfilter.html

如果电话号码放在一个文档的同一字段中,则创建一个 token 生成器,该 token 生成器应将每个电话号码作为 token 输出。

并且为此 token 生成器定义一个唯一类型的过滤器,该过滤器将保留唯一 token 。这些线周围的东西:

  "analyzer": {
"numbers": {
"tokenizer": "[whatever]",
"filter": [
...,
"unique"
]
}
}

关于elasticsearch - 如何将唯一的列数据插入elasticsearch?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31398763/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com