gpt4 book ai didi

Azure 搜索,跳过大 blob 但仍索引元数据

转载 作者:行者123 更新时间:2023-12-03 05:50:59 26 4
gpt4 key购买 nike

我们有一组 blob,各种内容。

我们需要对元数据和内容建立索引,但我们很乐意跳过不支持的文件类型和非常大的文件的内容。例如我们有

File One.docx - 支持的类型 - 索引元数据和内容(良好)

文件 Two.dat - 不支持的类型 - 索引元数据跳过内容(良好)

文件 Three.txt - 支持的类型,由于 blob 的大小而失败。 (不好)

我们的搜索配置基于 docs ,我们刚刚将 failOnUnsupportedContentType 添加到 Configuration 并将其设置为 false

我们希望为 File Three.txt 的元数据建立索引,但跳过较大的内容,例如 failOnOversizedContent,我们将其设置为 false

现在我们收到一个错误,表明 blob 的大小太大。

最佳答案

2018 年 1 月 3 日更新

我意识到我最初建议使用 AzureSearch_SkipContent blob 元数据并不能解决问题,因为仍然需要下载 blob 来处理内容类型元数据。

为了使此方案正常工作,我们添加了 indexStorageMetadataOnlyForOversizedDocuments 索引器配置设置。它采用 bool 值,默认为 false,因此在索引器配置中将其设置为 true 以启用它。该产品刚刚发布,将于 1 月 19 日在全局范围内投入生产。

原始回复

您可以将 AzureSearch_SkipContent: true 元数据添加到大型 blob,如 Controlling which parts of the blob are indexed 中所述。 。我知道这可能会带来不便,但这可以为您解除障碍。

We would like to index the metadata for File Three.txt but skip the large content, something like failOnOversizedContent which we would set to false.

这看起来是一个有用的功能请求 - 请在 our UserVoice site 添加建议我们会考虑这一点,特别是如果我们看到其他客户提出这样的要求。

关于Azure 搜索,跳过大 blob 但仍索引元数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47932417/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com