gpt4 book ai didi

azure - 创建索引器,将数据源作为索引内 JSON 文档中的字段

转载 作者:行者123 更新时间:2023-12-03 02:23:17 24 4
gpt4 key购买 nike

我有一个索引,其中包含 Azure 搜索服务中 JSON 格式的文档

索引架构

{
"name": "product-api",
"defaultScoringProfile": null,
"fields": [
{
"name": "upcid",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": []
},
{
"name": "productName",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": []
},
{
"name": "imageUrl",
"type": "Edm.String",
"searchable": false,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": []
},
{
"name": "ocrText",
"type": "Edm.String",
"searchable": false,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": []
}
],
"scoringProfiles": [],
"corsOptions": {
"allowedOrigins": [
"*"
],
"maxAgeInSeconds": null
},
"suggesters": [],
"analyzers": [],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"encryptionKey": null,
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
}
}
  • 我的要求

创建一个索引器,它可以使用imageUrl(图像未存储在Azure存储服务中)字段作为数据源,Microsoft.Skills.Vision.OcrSkill作为技能,将输出映射到字段 ocrText

  • 问题

根据我从文档中读到的内容,数据源(在我的例子中是图像)必须位于 Azure Blob 存储中才能创建索引器。

有人做过类似我的要求吗?或者有人知道有什么直接或间接的方法可以达到要求吗?

如果能提供任何线索就太好了,我在互联网上找不到与此相关的任何内容。

最佳答案

您最初是如何在搜索索引中填充 imageUrl 数据的?

我这么问是因为无法将索引器配置为从搜索索引中提取数据作为数据源。如果您能够将这些图像 URL 放在其他地方(例如:blob 存储),您可以将索引器指向该位置。如果是另一个索引器开始填充源索引,则可以 add a knowledge store to that primary Indexer将 imageUrl 数据接收到 blob/表存储以及搜索索引。或者,只需在主索引器的技能集中处理 url,而不用担心此辅助传递!

下一个问题是索引器不会抓取您提供的任意网址。它仅从数据源获取数据,或通过技能返回数据。可以写 custom web api skill它将采用 url 作为输入,从该 url 下载图像,并使用二进制图像数据响应索引器。此功能没有很好的记录,但是 there exists an example powerskill这会做一些你或多或少可以复制的事情。

此辅助索引器管道的其余部分应该非常简单(添加 ocr 技能和输出字段映射函数以将数据合并回同一索引)。索引器不会用 null 覆盖现有值,因此只需确保仅将一个新字段映射回索引,索引的其余数据将保持不变。

关于azure - 创建索引器,将数据源作为索引内 JSON 文档中的字段,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68024321/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com