gpt4 book ai didi

azure - Azure 搜索索引的大小是否会影响性能/准确性?

转载 作者:行者123 更新时间:2023-12-03 06:11:52 30 4
gpt4 key购买 nike

我有 1000 个 pdf(每个 200 页)。
我需要将每个 pdf 添加到 Azure 搜索索引中的索引(作为小文本 block 和相关元数据,例如每个 pdf 200 个 block )
已达到最大可能搜索索引 50 个的限制,之后系统会提示我删除一些索引。

我现在计划只拥有 1 个单一搜索索引,并将所有 1000 个添加到一个单一搜索索引中。然后我计划在 .search 方法中使用过滤,并根据 pdf 名称进行过滤。

这个计划有缺点吗?

最佳答案

对与给定应用程序相关的所有文档使用单个大型索引是正确的方法。正如您所提到的,您可以使用带有文档名称的可过滤字段来确定搜索范围。这还有一个优点,如果您需要搜索所有或多个文档,它就可以工作。

就缺点而言:

  • 对于您所描述的卷(约 200K 页),索引的大小根本不会成为问题。如果您有数百个数百万或数十亿的页面,那么对索引进行分区会更好,但这需要更多工作,如果您认为不会达到这种数据量,我会避免这样做。
  • 如果文档具有非常不同的数据分布属性(例如非常不同的词汇表),那么混合文档可能会在评分过程中导致一些统计异常(例如,在一个文档中罕见的术语可能在其余文档中很常见,从而导致统计数据出现偏差)那样)。

为了完整性,我列出了缺点,从您的场景描述来看,很可能单个索引就可以了。

关于azure - Azure 搜索索引的大小是否会影响性能/准确性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/76683441/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com