python - 从Python使用Elasticsearch API时已删除的文档-6ren

python - 从Python使用Elasticsearch API时已删除的文档

转载作者：行者123 更新时间：2023-12-03 02:37:48

25

4

我对Elasticsearch相对较新，并且在确定为什么python dataframe中的记录数与索引文档计数Elasticsearch不同时遇到了问题。

我首先通过运行以下命令创建索引:您可以看到有62932条记录。

我正在使用以下方法在elasticsearch中创建索引:
Python code

当我检查Kibana Management/Index Management中的索引时，只有62630个文档。根据“统计”窗口，有302个已删除计数。我不知道这是什么意思。

以下是STATS窗口的输出
{ "_shards": { "total": 2, "successful": 1, "failed": 0 }, "stats": { "uuid": "egOx_6EwTFysBr0WkJyR1Q", "primaries": { "docs": { "count": 62630, "deleted": 302 }, "store": { "size_in_bytes": 4433722 }, "indexing": { "index_total": 62932, "index_time_in_millis": 3235, "index_current": 0, "index_failed": 0, "delete_total": 0, "delete_time_in_millis": 0, "delete_current": 0, "noop_update_total": 0, "is_throttled": false, "throttle_time_in_millis": 0 }, "get": { "total": 0, "time_in_millis": 0, "exists_total": 0, "exists_time_in_millis": 0, "missing_total": 0, "missing_time_in_millis": 0, "current": 0 }, "search": { "open_contexts": 0, "query_total": 140, "query_time_in_millis": 1178, "query_current": 0, "fetch_total": 140, "fetch_time_in_millis": 1233, "fetch_current": 0, "scroll_total": 1, "scroll_time_in_millis": 6262, "scroll_current": 0, "suggest_total": 0, "suggest_time_in_millis": 0, "suggest_current": 0 }, "merges": { "current": 0, "current_docs": 0, "current_size_in_bytes": 0, "total": 2, "total_time_in_millis": 417, "total_docs": 62932, "total_size_in_bytes": 4882755, "total_stopped_time_in_millis": 0, "total_throttled_time_in_millis": 0, "total_auto_throttle_in_bytes": 20971520 }, "refresh": { "total": 26, "total_time_in_millis": 597, "external_total": 24, "external_total_time_in_millis": 632, "listeners": 0 }, "flush": { "total": 1, "periodic": 0, "total_time_in_millis": 10 }, "warmer": { "current": 0, "total": 23, "total_time_in_millis": 0 }, "query_cache": { "memory_size_in_bytes": 17338, "total_count": 283, "hit_count": 267, "miss_count": 16, "cache_size": 4, "cache_count": 4, "evictions": 0 }, "fielddata": { "memory_size_in_bytes": 0, "evictions": 0 }, "completion": { "size_in_bytes": 0 }, "segments": { "count": 2, "memory_in_bytes": 22729, "terms_memory_in_bytes": 17585, "stored_fields_memory_in_bytes": 2024, "term_vectors_memory_in_bytes": 0, "norms_memory_in_bytes": 512, "points_memory_in_bytes": 2112, "doc_values_memory_in_bytes": 496, "index_writer_memory_in_bytes": 0, "version_map_memory_in_bytes": 0, "fixed_bit_set_memory_in_bytes": 0, "max_unsafe_auto_id_timestamp": -1, "file_sizes": {} }, "translog": { "operations": 62932, "size_in_bytes": 17585006, "uncommitted_operations": 0, "uncommitted_size_in_bytes": 55, "earliest_last_modified_age": 0 }, "request_cache": { "memory_size_in_bytes": 0, "evictions": 0, "hit_count": 0, "miss_count": 0 }, "recovery": { "current_as_source": 0, "current_as_target": 0, "throttle_time_in_millis": 0 } }, "total": { "docs": { "count": 62630, "deleted": 302 }, "store": { "size_in_bytes": 4433722 }, "indexing": { "index_total": 62932, "index_time_in_millis": 3235, "index_current": 0, "index_failed": 0, "delete_total": 0, "delete_time_in_millis": 0, "delete_current": 0, "noop_update_total": 0, "is_throttled": false, "throttle_time_in_millis": 0 }, "get": { "total": 0, "time_in_millis": 0, "exists_total": 0, "exists_time_in_millis": 0, "missing_total": 0, "missing_time_in_millis": 0, "current": 0 }, "search": { "open_contexts": 0, "query_total": 140, "query_time_in_millis": 1178, "query_current": 0, "fetch_total": 140, "fetch_time_in_millis": 1233, "fetch_current": 0, "scroll_total": 1, "scroll_time_in_millis": 6262, "scroll_current": 0, "suggest_total": 0, "suggest_time_in_millis": 0, "suggest_current": 0 }, "merges": { "current": 0, "current_docs": 0, "current_size_in_bytes": 0, "total": 2, "total_time_in_millis": 417, "total_docs": 62932, "total_size_in_bytes": 4882755, "total_stopped_time_in_millis": 0, "total_throttled_time_in_millis": 0, "total_auto_throttle_in_bytes": 20971520 }, "refresh": { "total": 26, "total_time_in_millis": 597, "external_total": 24, "external_total_time_in_millis": 632, "listeners": 0 }, "flush": { "total": 1, "periodic": 0, "total_time_in_millis": 10 }, "warmer": { "current": 0, "total": 23, "total_time_in_millis": 0 }, "query_cache": { "memory_size_in_bytes": 17338, "total_count": 283, "hit_count": 267, "miss_count": 16, "cache_size": 4, "cache_count": 4, "evictions": 0 }, "fielddata": { "memory_size_in_bytes": 0, "evictions": 0 }, "completion": { "size_in_bytes": 0 }, "segments": { "count": 2, "memory_in_bytes": 22729, "terms_memory_in_bytes": 17585, "stored_fields_memory_in_bytes": 2024, "term_vectors_memory_in_bytes": 0, "norms_memory_in_bytes": 512, "points_memory_in_bytes": 2112, "doc_values_memory_in_bytes": 496, "index_writer_memory_in_bytes": 0, "version_map_memory_in_bytes": 0, "fixed_bit_set_memory_in_bytes": 0, "max_unsafe_auto_id_timestamp": -1, "file_sizes": {} }, "translog": { "operations": 62932, "size_in_bytes": 17585006, "uncommitted_operations": 0, "uncommitted_size_in_bytes": 55, "earliest_last_modified_age": 0 }, "request_cache": { "memory_size_in_bytes": 0, "evictions": 0, "hit_count": 0, "miss_count": 0 }, "recovery": { "current_as_source": 0, "current_as_target": 0, "throttle_time_in_millis": 0 } } } }
为什么文档计数与索引总数不同？我已导出数据，且记录数与文档数匹配。我如何找出为什么删除文档并确保将来不再删除它们？

最佳答案

可能的原因:

删除的文档占用了索引中的磁盘空间。

内存中按文档的数据结构(例如规范或字段数据)仍将占用已删除文档的RAM。

搜索吞吐量较低，因为每次搜索都必须为每个潜在的命中检查已删除的位集。在下面的更多内容。

用于查询评分的汇总术语统计信息仍将反射(reflect)已删除的术语和文档。合并完成后，术语统计将突然跳近其真实值，从而更改命中分数。实际上，这种影响是很小的，除非删除的文档的统计数据与索引的其余部分不同。

删除的文档将单个分片的最大2.1 B文档中的文档ID bundle 在一起。如果您的碎片接近该极限(不建议!)，这可能很重要。

模糊查询的结果可能略有不同，因为它们可能与虚假词匹配。

https://www.elastic.co/guide/en/elasticsearch/reference/current//cat-indices.html
https://www.elastic.co/blog/lucenes-handling-of-deleted-documents

关于python - 从Python使用Elasticsearch API时已删除的文档，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58526750/

25

4

0

文章推荐： ios - 如何在给定时间后激活功能？

文章推荐： c# - 在 Web API 上验证 Azure AD ID token

文章推荐： c# - Microsoft.Azure.Management.Fluent.Azure 从不响应

api - Azure API 管理 - API 端点域与实际 API URL
我已经设置了 Azure API 管理服务，并在自定义域上配置了它。在 Azure 门户中 API 管理服务的配置部分下，我设置了以下内容: 因为这是一个客户端系统，我必须屏蔽细节，但以下是基础知识:
api - 使用 API key 获取 API(Twitter API)
我是一名习惯 React Native 的新程序员。我最近开始学习 Fetch API 及其工作原理。我的问题是，我找不到人们使用 API key 在他们的获取语句中访问信息的示例(我很难清楚地表达有
api - 插件 API 与类库 API
这里有很多关于 API 是什么的东西，但是我找不到我需要的关于插件 API 和类库 API 之间的区别。反正我不明白。在 Documenting APIs 一书中，我读到:插件 API 和类库 AP
api - 谷歌博客搜索 API 的替代 API
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
api - 在现有 API 中使用多个第三方 API 的最佳实践
我正在尝试找出设计以下场景的最佳方法。假设我已经有了一个 REST API 实现，它将从不同的供应商那里获取书籍并将它们返回给我自己的客户端。每个供应商都提供单独的 API 来向其消费者提供图书。
api - REST API 和 API key
请有人向我解释如何使用 api key 以及它有什么用处。我对此进行了很多搜索，但得到了不同且相互矛盾的答案。有人说 API key 是保密的，它从不作为通信的一部分发送，而其他人则将它发送给客户端
api - Flickr api 与 Picasa api
关闭。这个问题是opinion-based .它目前不接受答案。想改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 4年前关闭。 Improve this
api - WSO2 API Manager API 认证失败
谁能告诉我为什么 WSo2 API 管理器不进行身份验证？我已经设置了两个 WSo2 API Manager 1.8.0 实例并创建了一个 api。它作为原型(prototype) api 工作正常。
api - Fluent API 与其他 API 有何不同？
我在学习 DSL 的过程中遇到了 Fluent API。我在流利的 API 上搜索了很多……我可以得出的基本结论是，流利的 API 使用方法链来使代码流利。但我无法理解——在面向对象的语言中，我们
api - WSO2 API 管理器是否支持 API 联合？
基本上，我感兴趣的是在多个区域设置 WSO2 API 管理器；例如亚洲、美国和欧洲。一些 API 将部署在每个区域的数据中心内，而其他 API 将仅部署在特定区域内。理想情况下，我想要的是一个单一的
api - 使用 API key 保护我的 API
我正在构建自己的 API，供以下用户使用: 1) 安卓应用 2) 桌面应用我的网址之一是:http://api.chatapp.info/order_api/files/getbeers.php我的
api - 如何通过 API Key 授权谷歌分析 API
我需要向所有用户显示我的站点的分析，但使用 OAuth 它显示为登录用户配置的站点的分析。如何使用嵌入 API 实现仪表板但仅显示我的网站分析？我能想到的最好的可能性是使用 API key 而不是客
api - 提供 API 的公司是否在其 API 之前使用填充程序或代理？
我正在研究大公司如何管理其公共(public) API。我想到的是拥有成熟 API 的公司，例如 Google、Facebook、Twitter 和 Amazon。这些公司向公众公开了许多不同的 A
api - 显式 API 方法与广义的基于参数的 API 方法
在定义客户可访问的 API 时，以下是首选的行业惯例: a) 定义一组显式 API 方法，每个方法都有非常狭窄和特定的目的，例如: SetUserName SetUserAge Se
api - GAE API 资源管理器不显示 API，似乎卡在加载中
这在本地 deserver 和部署时都会发生。我成功地能够通过留言簿教程使用 API 资源管理器，但现在我已经创建了自己的项目并尝试访问我编写的第一个 API，它从未出现过。搜索栏旁边的黄色“正在加载
api - 尝试查询 API，但 api 响应为空
我正在尝试使用 http://ip-api.com/ api通过我的ip地址获取经度和纬度。当我访问 http://ip-api.com/json从我的浏览器或使用 curl，它以 json 格式返回
api - 流式 API 与 Rest API？
这里的典型示例是 Twitter 的 API。我从概念上理解 REST API 的工作原理，本质上它只是针对您的特定请求向他们的服务器查询，然后您会在其中收到响应(JSON、XML 等)，很棒。但是
api - 如何让其他 API 与您的 API 对话，而您的 API 又与 Twitter 对话？
我能想到的最好的标题，但要澄清的是，情况是这样的: 我正在开发一种类似短 url 的服务，该服务允许用户使用他们的 Twitter 帐户“登录”并发布内容。现在这项服务可以包含在 Tweetdeck
api - 平面与嵌套 API
我正在设计用于管理评论和讨论线程的 API 方案。我想有一个点 /discussions/:discussionId 当您GET 时，它会返回一组评论和一些元数据。评论也许可以单独访问 /discus
api - 后端和 API 是一样的吗？什么是后端 Web API？
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭去年。 Improve this quest

首页

博学

6Ren·AI

商城

python - 从Python使用Elasticsearch API时已删除的文档