azure - 创建索引器，将数据源作为索引内 JSON 文档中的字段-6ren

azure - 创建索引器，将数据源作为索引内 JSON 文档中的字段

转载作者：行者123 更新时间：2023-12-03 02:23:17

24

4

我有一个索引，其中包含 Azure 搜索服务中 JSON 格式的文档。

索引架构

{
"name": "product-api",
"defaultScoringProfile": null,
"fields": [
    {
        "name": "upcid",
        "type": "Edm.String",
        "searchable": true,
        "filterable": false,
        "retrievable": true,
        "sortable": true,
        "facetable": false,
        "key": true,
        "indexAnalyzer": null,
        "searchAnalyzer": null,
        "analyzer": null,
        "synonymMaps": []
    },
    {
        "name": "productName",
        "type": "Edm.String",
        "searchable": true,
        "filterable": false,
        "retrievable": true,
        "sortable": false,
        "facetable": false,
        "key": false,
        "indexAnalyzer": null,
        "searchAnalyzer": null,
        "analyzer": null,
        "synonymMaps": []
    },
    {
        "name": "imageUrl",
        "type": "Edm.String",
        "searchable": false,
        "filterable": false,
        "retrievable": true,
        "sortable": false,
        "facetable": false,
        "key": false,
        "indexAnalyzer": null,
        "searchAnalyzer": null,
        "analyzer": null,
        "synonymMaps": []
    },
    {
        "name": "ocrText",
        "type": "Edm.String",
        "searchable": false,
        "filterable": false,
        "retrievable": true,
        "sortable": false,
        "facetable": false,
        "key": false,
        "indexAnalyzer": null,
        "searchAnalyzer": null,
        "analyzer": null,
        "synonymMaps": []
    }
],
"scoringProfiles": [],
"corsOptions": {
    "allowedOrigins": [
        "*"
    ],
    "maxAgeInSeconds": null
},
"suggesters": [],
"analyzers": [],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"encryptionKey": null,
"similarity": {
    "@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
}
}

我的要求

创建一个索引器，它可以使用imageUrl(图像未存储在Azure存储服务中)字段作为数据源，Microsoft.Skills.Vision.OcrSkill作为技能，将输出映射到字段 ocrText。

问题

根据我从文档中读到的内容，数据源(在我的例子中是图像)必须位于 Azure Blob 存储中才能创建索引器。

有人做过类似我的要求吗？或者有人知道有什么直接或间接的方法可以达到要求吗？

如果能提供任何线索就太好了，我在互联网上找不到与此相关的任何内容。

最佳答案

您最初是如何在搜索索引中填充 imageUrl 数据的？

我这么问是因为无法将索引器配置为从搜索索引中提取数据作为数据源。如果您能够将这些图像 URL 放在其他地方(例如:blob 存储)，您可以将索引器指向该位置。如果是另一个索引器开始填充源索引，则可以 add a knowledge store to that primary Indexer将 imageUrl 数据接收到 blob/表存储以及搜索索引。或者，只需在主索引器的技能集中处理 url，而不用担心此辅助传递!

下一个问题是索引器不会抓取您提供的任意网址。它仅从数据源获取数据，或通过技能返回数据。可以写 custom web api skill它将采用 url 作为输入，从该 url 下载图像，并使用二进制图像数据响应索引器。此功能没有很好的记录，但是 there exists an example powerskill这会做一些你或多或少可以复制的事情。

此辅助索引器管道的其余部分应该非常简单(添加 ocr 技能和输出字段映射函数以将数据合并回同一索引)。索引器不会用 null 覆盖现有值，因此只需确保仅将一个新字段映射回索引，索引的其余数据将保持不变。

关于azure - 创建索引器，将数据源作为索引内 JSON 文档中的字段，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68024321/

24

4

0

文章推荐： Azure Vnet 对等互连与 Vnet 集成

java - 无法使用单个连接执行多个准备语句(数据源)
我试图通过预准备语句使用同一连接执行多个查询，但无法完全实现! 代码片段: public class PostPrReqDaoImpl implements PostPrReqDaoInterface
c# - DataGridViewComboBox 数据源
我目前有一个 2 列宽的 DataGridView，第一列是 DataGridViewTextBoxColumn，第二列是 DataGridViewComboBoxColumn。我还有一个预生成的通用
java - JDBC 数据源
当我在一台机器上运行以下代码时，我得到了 org.apache.tomcat.dbcp.dbcp.BasicDataSource 的 tomcat 实现，当我在另一台机器上运行它时，我得到了 org.
双启动机器上共享驱动器上的 Mysql 数据源
不确定这是否可行，但这是我的设置。我有一台带有双启动功能的笔记本电脑。一个一个分区我有 WinXP 和 MSAccess 2000在另一个分区上，Ubuntu 10.04，带有 apache we
javascript - 如何使用铯缩放实体/数据源？
我试过: czmlDataSource.load(czmlurl).then(function(){ viewer.dataSource
ios - UITableView 数据源
我有一个 TableView 和一个数组源。当我在 viewDidLoad 方法中初始化数组时，tableview 显示数组中的数据。当我从 Internet 上的 XML 数据的 URL 填充数组时
Java 数据源 SessionFactory
我对 DataSource 和 SessionFactory 之间的区别感到困惑。我认为SessionFactory是一个用于检索 session 的管理器(我猜这实际上是与数据库的连接)。 Dat
php - 为字符串匹配优化的数据库/数据源？
我想存储大量(~数千)个字符串并能够使用通配符执行匹配。例如，这里是一个示例内容: Folder1 文件夹 1/Folder2 Folder1/* Folder1/Folder2/Folder3 文
c# - DataGridView 数据源
我有一个 DataGridView 和一个从 SQL 表填充的一些对象的列表。我曾使用两种方法将列表绑定(bind)到网格。 1.直接使用列表到数据源 grdSomeList.DataSource =
c# - DataGridViewComboBoxColumn 数据源？
我正在尝试在 DataGridView 中设置一些内容。看起来这应该很简单，但我遇到了麻烦。我想显示三列: 代码ID 代号带有 TypeName 的 DisplayMember 和 TypeID 的
具有多个环境的 Grails 外部配置(数据源)
在我的 Config.groovy我把线: grails.config.locations = [ "classpath:app-config.properties"] 我在哪里设置数据源的定义。文件
Excel 数据源按组排序其他页面
为了这个问题，假设我有一个包含各种酒类的 Excel 数据源电子表格。 (Cell A) | (Cell B) Bacardi | Rum Smirnoff | Vodka Another Vodka
Magento 资源和 API 数据源
由于我经常使用第三方 API，我认为创建一些 Magento 模块以实现轻松连接和查询它们会很有帮助。理想情况下，您可以像这样查询 API... $data = Mage::getModel( 'to
multithreading - 从后台线程更新 NSTableView 数据源
将后台线程频繁更新的数据源与 GUI 主线程同步的最佳方法是什么？我应该在每个方法调用周围放置一个 pthread 互斥体吗？这对我来说似乎也很重。编辑:我正在寻找 10.5 解决方案最佳答案
javascript - websql在循环中插入语句，数据源-json
经过几个小时的点击和试用，在查看各种帖子寻求帮助后，这段代码终于起作用了。但我希望有人帮助我理解函数(i，dat)，这意味着什么？下面是我的完整代码 - function get_assignedta
java - 使用InitialContext 在类中使用wildfly 数据源
我使用的是 Wildfly 10.1 版本，有两个数据源，如下所示， jdbc:mysql://${dbhostn
java - 应用程序服务器实现的 JDBC 数据源
我正在学习数据源，我想我开始理解它，但我不明白这一段。据我所知，MySQL 和 PostgreSQL 等数据库供应商编写了自己的不同 DataSource 接口(interface)的实现。现在，这
java - 找不到 TomEE 数据源
我有一个关于 TomEE 和使用 tomee.xml 中指定的数据源的奇怪问题。值得注意的是，我使用的是 Netbeans、TomEE 和 MySQL。在 Ubuntu 13.04(Xubuntu 最
ios - 使用核心数据的具有多个部分的 Diffable 数据源
WWDC 2019 确实充满了 iOS 的新内容以及 TableViews 和 CollectionView 的新数据源，即 UITableViewDiffableDataSource . 我已成功将
jboss 7 AS sqlserver 数据源
我在独立模式下运行 jboss 并将 standalone.xml 中的数据源设置为以下内容: jdbc:sqlserver://myip:1433;databaseNam

首页

博学

6Ren·AI

商城

azure - 创建索引器，将数据源作为索引内 JSON 文档中的字段