gpt4 book ai didi

java - Lucene中跨多个字段的重复值的影响

转载 作者:塔克拉玛干 更新时间:2023-11-01 22:00:22 25 4
gpt4 key购买 nike

在 lucene 索引中跨多个字段重新索引相同值会产生什么影响?

这个想法是某人的名字是他们名字和一般详细信息的一部分。所以我想将该值索引到多个字段中。 Ted Bloggs 我可能索引如下:

Field        |    Value
-------------|---------
firstName | Ted
lastName | Blogs
name | Ted
name | Bloggs
general | Ted
general | Bloggs
all | Ted
all | Bloggs

通过这样做,我可以轻松地形成字段类别,但我担心它可能会对性能和/或磁盘使用产生不利影响。

谁能给个建议

最佳答案

@aishwarya 是对的,但要进一步扩展它:

来自 the docs :

This file is sorted by Term. Terms are ordered first lexicographically (by UTF16 character code) by the term's field name, and within that lexicographically (by UTF16 character code) by the term's text.

术语将在每个字段中存储一次,因此如果您将每个术语重复五次,您的存储空间将增加五倍。但是,术语 dic 的大小与原始数据的大小成对数关系,因此我怀疑您会遇到问题。

性能损失将不存在(Lucene 缓存每个字段开始的地方),除非有更多的数据会迫使内存不足。对于大多数搜索基础架构,您的索引可能不到几 GB,无论如何都可以轻松放入内存。

关于java - Lucene中跨多个字段的重复值的影响,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8356837/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com