gpt4 book ai didi

c# - 文档提取认知技能的使用

转载 作者:行者123 更新时间:2023-12-03 02:21:08 30 4
gpt4 key购买 nike

我正在尝试利用 Azure 认知服务来执行基本文档提取。

我的目的是将 PDF 和 DOCX(可能还有其他一些文件)输入到认知引擎中进行解析,但不幸的是,其实现并不像看起来那么简单。

根据文档( https://learn.microsoft.com/en-us/azure/search/cognitive-search-skill-document-extraction#sample-definition ),我必须定义技能,然后我应该能够输入文件,但没有关于如何完成此操作的示例。

到目前为止,我已经能够定义该技能,但我仍然不确定应该将文件放入何处。

请参阅下面的代码,因为它试图复制示例代码中显示的相同数据结构(尽管使用了 C# 库)

public static DocumentExtractionSkill CreateDocumentExtractionSkill()
{
List<InputFieldMappingEntry> inputMappings = new List<InputFieldMappingEntry>
{
new("file_data") {Source = "/document/file_data"}
};

List<OutputFieldMappingEntry> outputMappings = new List<OutputFieldMappingEntry>
{
new("content") {TargetName = "extracted_content"}
};

DocumentExtractionSkill des = new DocumentExtractionSkill(inputMappings, outputMappings)
{
Description = "Extract text (plain and structured) from image",
ParsingMode = BlobIndexerParsingMode.Text,
DataToExtract = BlobIndexerDataToExtract.ContentAndMetadata,
Context = "/document",
};

return des;
}

然后我会像这样建立这项技能:

_indexerClient = new SearchIndexerClient(new Uri(Environment.GetEnvironmentVariable("SearchEndpoint")), new AzureKeyCredential(Environment.GetEnvironmentVariable("SearchKey"));
List<SearchIndexerSkill> skills = new List<SearchIndexerSkill> { Skills.DocExtractionSkill.CreateDocumentExtractionSkill() };

SearchIndexerSkillset skillset = new SearchIndexerSkillset("DocumentSkillset", skills)
{
Description = "Document Cracker Skillset",
CognitiveServicesAccount = new CognitiveServicesAccountKey(Environment.GetEnvironmentVariable("CognitiveServicesKey"))
};


await _indexerClient.CreateOrUpdateSkillsetAsync(skillset);

然后……然后呢?

没有明确的方法适合我认为下一阶段的实际解析文档。

从这里开始将文件转储到 _indexerClient(SearchIndexerClient 类型)中的下一步是什么?

文档中显示的下一阶段是:

{
"values": [
{
"recordId": "1",
"data":
{
"file_data": {
"$type": "file",
"data": "aGVsbG8="
}
}
}
]
}

尚不清楚我将在哪里执行此操作。

最佳答案

根据document你提到过的。他们实际上是试图通过 postman 获取输出。他们使用 GET 方法通过向上述 URL(即认知技能 URL)发送 JSON 请求来接收提取的文档内容,并且需要将文件/文档上传到您的存储帐户才能被提取。 enter image description here

你可以关注这个tutorial以获得更多见解。

关于c# - 文档提取认知技能的使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68968155/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com