鸿蒙(HarmonyOS)原生AI能力之文本识别-6ren

鸿蒙(HarmonyOS)原生AI能力之文本识别

转载作者：撒哈拉更新时间：2024-12-23 10:47:42

56

4

鸿蒙(HarmonyOS)原生AI能力之文本识别

原生智能介绍

在之前开发中，很多场景我们是通过调用云端的智能能力进行开发。例如文本识别、人脸识别等.
原生即指将一些能力直接集成在本地鸿蒙系统中，通过不同层次的AI能力开放，满足开发者的不同场景下的诉求，降低应用开发门槛，帮助开发者快速实现应用智能化。

有哪些原生智能能力

基础视觉服务
基础语音服务
端侧模型部署
端侧推理
意图框架
.........

基础视觉服务 - Core Vision Kit

Core Vision Kit（基础视觉服务）是机器视觉相关的基础能力，接下来要导入的类，都在@kit.VisionKit中例如本篇要讲的文字识别即是如此。

文本识别介绍与使用

概念：将图片中的文字给识别出来。
使用 textRecognition 实现文本识别。
限制:
- 仅能识别5种语言类型
  - 简体中文、繁体中文、英文、日文、韩文
使用步骤。
1. 导入textRecognition 。
```
import { textRecognition } from '@kit.CoreVisionKit'
```
2. 实例化visionInfo对象，用来准备待识别的图片（需PixelMap类型）。
```
let visionInfo: textRecognition.VisionInfo = {
    pixelMap: '待识别图片'
};
```
3. 实例化TextRecognitionConfiguration对象，设置识别配置（目前仅有是否开启朝向检测一项配置）。
```
let textConfiguration: textRecognition.TextRecognitionConfiguration = {
  	// 是否开启朝向检测
    isDirectionDetectionSupported: false
};
```
4. 调用textRecognition的recognizeText接口传入以上两个对象，开启识别并对识别结果进行处理，得到的是TextRecognitionResult类型结果，这个对象的value属性即为识别结果。
```
textRecognition.recognizeText(visionInfo, textConfiguration)
```
这里解释一下这几步。
- 你需要用textRecognition，所以需要先找到它，也即导入，这没什么好说的。
- 你需要用它来帮你识别图片，那你是不是应该把需要识别的图片给它？所以第一个参数就是给他传递一个图片，只不过这个图片只能传PixelMap类型的（这就是为什么上篇我要写PixMap的原因），但是这个图片不能直接传，要包装成VisionInfo类型的对象（虽然目前为止，这个对象只有这一个属性，但保不齐未来会加）。
  
  然后就是设置一下它识别的相关参数，它目前也只有一个参数，叫isDirectionDetectionSupported，设置是否开启朝向检测，因为有的图片可能是正的，有的图片可能是反的斜的。所以对于反的斜的图片如果这项开启为true，则会检测的更为准确。但是经过猫林老师肉测，其实开不开启扫描反的斜的图片，得到的结果都差不多了。所以可以看自己选择。顺便一提，这个参数可以不传，不传默认是true。然后猫林老师觉得：未来随着API发展，可能会多一些参数也说不准。
- 最后即为调用其进行识别的方法，也即recognizeText开始识别。
- 根据上面所说的，其实上面说的四步，也可以极简改为两步，代码如下。
```
import { textRecognition } from '@kit.CoreVisionKit'

textRecognition.recognizeText({ pixelMap: '待识别图片' })
```
  - 解释：这里就相当于没传第二个参数，它默认值即为true，也即开启朝向检测。
- 至于如何读取相册图片，以及把图片解码变成PixelMap，不是今天分享的主题，且之前猫林老师有两篇文章分别讲过不会的可以看之前文章，所以这里直接给代码（可看注释）。
```
// 1. 使用PhotoViewPicker选择相册图片
let photoPicker = new photoAccessHelper.PhotoViewPicker();
// 2. 使用select方法开始选择图片
 photoPicker.select({
   			// 设置只选择图片
        MIMEType: photoAccessHelper.PhotoViewMIMETypes.IMAGE_TYPE,
   			// 设置最大只能选择1张
        maxSelectNumber: 1
})
.then((res: photoAccessHelper.PhotoSelectResult) => {
   // res参数里的photoUris属性即为选择的图片结果数组（因为可以选择多张），每个元素得到的是临时路径
   // 用fs打开这个路径
   let fileSource = fileIo.openSync(res.photoUris[0], fileIo.OpenMode.READ_ONLY);
   // 使用createImageSource方法将图片文件流常见成图片源码
   let imageSource = image.createImageSource(fileSource.fd);
   // 再使用createPixelMap方法，将图片源码制作成PixelMap类型
   const pixelMap = imageSource.createPixelMapSync()
   // 后续使用textRecognition的recognizeText那一套代码进行识别即可
})
```

文本识别展示案例

我们来实现如下图的效果。
- 界面上从上往下放:
  - Image：显示选择的待识别图片
  - Button：选择相册里的图片
  - Button：开始识别按钮
  - TextArea：显示识别后的结果，使用TextArea的原因是它对比Text会多一个滚动效果（防止内容过多显示不全）

结合上面说的使用方法，最终文本识别代码如下。

import { photoAccessHelper } from '@kit.MediaLibraryKit'
import { fileIo } from '@kit.CoreFileKit'
import { image } from '@kit.ImageKit'
import { textRecognition } from '@kit.CoreVisionKit'

@Entry
@Component
struct Index {
  @State text: string = '识别结果'
  @State imgPixelMap: PixelMap | null = null

  build() {
    Column({ space: 20 }) {
      Button('打开图片')
        .width('85%')
        .onClick(async () => {
          const uri = await this.selectPhoto()
          if (uri) {
            const pixelMap = await this.getPixMap(uri)
            this.imgPixelMap = pixelMap
          }
        })

      Button('开始识别')
        .width('85%')
        .onClick(() => {
          this.recognize()
        })

      Image(this.imgPixelMap)
        .objectFit(ImageFit.Contain)
        .height('45%')

      Text(this.text)
        .width('85%')
        .layoutWeight(1)
        .border({ style: BorderStyle.Dotted, width: 5, color: Color.Red })
    }
    .width('100%')
    .height('100%')
  }

  async selectPhoto() {
    try {
      // 实例化照片选择器
      const picker = new photoAccessHelper.PhotoViewPicker()
      // 选择图片
      const uris = await picker.select({
        MIMEType: photoAccessHelper.PhotoViewMIMETypes.IMAGE_TYPE,
        maxSelectNumber: 1
      })
      return uris.photoUris[0]

    } catch {
      console.log('err')
      return null
    }
  }

  // 根据图片路径转PixelMap
  async getPixMap(uri: string) {
    try {
      const imgSrc = await fileIo.open(uri, fileIo.OpenMode.READ_ONLY)
      let source = image.createImageSource(imgSrc.fd)
      return source.createPixelMapSync()
    } catch {
      console.log('error' + uri)
      return null
    }
  }

  // 文字识别
  async recognize() {
    const info: textRecognition.VisionInfo = {
      pixelMap: this.imgPixelMap!
    }
    const res = await textRecognition.recognizeText(info, {
      isDirectionDetectionSupported: false
    })
    this.text = res.value
  }
}

总结

今天猫林老师给大家分享了鸿蒙提供的原生AI能力。其实听起来名字很高大上，用起来非常简单。这是因为鸿蒙帮我们做了高度封装，我们无须再关注OCR的相关知识，只需要使用鸿蒙提供的接口即可。所以，华为为了推广鸿蒙，发展鸿蒙生态，真的为开发者想了好多。这样的华为，你爱了吗？
友情提醒：本篇内容只适合用真机测试，模拟器无法出效果。
P.S：根据猫林老师肉测，在API12版本中的Mac模拟器成功出效果。其他版本都不行。所以建议有条件还是上真机。

最后此篇关于鸿蒙(HarmonyOS)原生AI能力之文本识别的文章就讲到这里了,如果你想了解更多关于鸿蒙(HarmonyOS)原生AI能力之文本识别的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

56

4

0

文章推荐： PySAGES结合CUDASPONGE增强采样

文章推荐： Slate文档编辑器-TS类型扩展与节点类型检查

文章推荐： C#字符串拼接的几种方式及其性能分析对比

windows - gcc 可被 cmd 识别，但不能被 bash 识别
我使用的是linux的windows子系统，安装了ubuntu，bash运行流畅。我正在尝试使用make，似乎bash 无法识别gcc。尝试将其添加到 PATH，但没有任何改变。奇怪的是 - cmd
installation - Imagick 被 WAMPServer 识别，但不被 PHP 识别
ImageMagick 已正确安装。 WAMP 的“PHP 扩展”菜单也显示带有勾选的 php_imagick。除了 Apache 和系统环境变量外，phpinfo() 没有显示任何 imagick
deterministic - 如果一种语言 (L) 被 n 状态 NFA 识别，它是否也能被状态不超过 2^n 的 DFA 识别？
我是这么想的，因为上限是 2^n，并且考虑到它们都是有限机，n 状态 NFA 和具有 2^n 或更少状态的 DFA 的交集将是有效。我错了吗？最佳答案你是对的。 2^n 是一个上限，因此生成的
r - 识别/描述向量中具有特定值的连续几天的序列
我有一个大型数据集，其中包含每日值，指示一年中的特定一天是否特别热(用 1 或 0 表示)。我的目标是识别 3 个或更多特别炎热的日子的序列，并创建一个包含每个日子的长度以及开始和结束日期的新数据集。
识别 R 向量中的特定元素顺序模式
我有一个向量列表，每个向量看起来像这样 c("Japan", "USA", "country", "Japan", "source", "country", "UK", "source", "coun
c - 识别/防止静态缓冲区溢出的工具和方法
是否有任何工具或方法可以识别静态定义数组中的缓冲区溢出(即 char[1234] 而不是 malloc(1234))？昨天我花了大部分时间来追踪崩溃和奇怪的行为，最终证明是由以下行引起的: // e
python - 手动创建的snakemake通配符未使用/识别
我一直在尝试通过导入制表符分隔的文件来手动创建 Snakemake 通配符，如下所示: dataset sample species frr PRJNA493818_GSE120639_SRP1628
python - 手动创建的snakemake通配符未使用/识别
我一直在尝试通过导入制表符分隔的文件来手动创建 Snakemake 通配符，如下所示: dataset sample species frr PRJNA493818_GSE120639_SRP1628
c# - 人声识别/识别
我想录下某人的声音，然后根据我获得的关于他/她声音的信息，如果那个人再次说话，我就能认出来!问题是我没有关于哪些统计数据(如频率)导致人声差异的信息，如果有人可以帮助我如何识别某人的声音？在研究过程
c++ - 识别 “Enter”
我希望我的程序能够识别用户何时按下“enter”并继续循环播放。但是我不知道如何使程序识别“输入”。尝试了两种方法: string enter; string ent = "\n"; dice d1;
识别 Bash 脚本中文件扩展名的正则表达式模式对于捕获压缩文件不准确
我创建了这个带有一个参数(文件名)的 Bash 小脚本，该脚本应该根据文件的扩展名做出响应: #!/bin/bash fileFormat=${1} if [[ ${fileFormat} =~ [F
ios - 识别 subview
我正在寻找一种在 for 循环内迭代时识别 subview 对象的方法，我基本上通过执行 cell.contentView.subviews 从 UITableView 的 contentView 获
Swift CallKit 识别
我正在尝试在 Swift 中使用 CallKit 来识别调用者。我正在寻找一种通过发出 URL 请求来识别调用者的方法。例如:+1-234-45-241 给我打电话，我希望它向 mydomain.
javascript - 厚盒插件 - 识别
我将(相当古老的)插件称为“thickbox”，如下所述: 创建厚盒时，它包含基于查询的内容列表。使用 JavaScript 或 jQuery，我希望能够访问 type 的值(在上面的示例中 t
c++ - 识别/生成波形？
我想编写一些可以接受某种输入并将其识别为方波、三角波或某种波形的代码。我还需要一些产生所述波的方法。我确实有使用 C/C++ 的经验，但是，我不确定我将如何模拟所有这些。最终，我想将其转换为微 Co
C# 识别 for 循环中的项目
我创建了一个 for 循环，用于在每个部分显示 8 个项目，但我试图在循环中识别某些项目。例如，我想识别前两项，然后是第五项和第六项，但我的识别技术似乎是正确的。 for (int i = 0; i
ios - 识别 UIStoryboard
如何识别 UIStoryboard？该类具有创建和实例化的方法，但我没有看到带有类似name 的@property。例如获取 Storyboard对象 + storyboardWithName:b
识别 MSSQL 各个版本的版本号的方法
如何确定所运行的SQLServer2005的版本要确定所运行的SQLServer2005的版本，请使用SQLServerManagementStudio连接到SQLServer2005，然后运行
javascript - 识别 Javascript 中的函数名称或属性
这个问题在这里已经有了答案: How to check whether an object is a date? (26 个答案) 关闭2 年前。我正在使用一个 npm 模块，它在错误时抛出一个空
android - 后台 Activity 识别
我正在制作一个使用 ActivityRecognition API 在后台跟踪用户 Activity 的应用，如果用户在指定时间段(例如 1 小时)内停留在同一个地方，系统就会推送通知告诉用户去散步.

首页

博学

6Ren·AI

商城

鸿蒙(HarmonyOS)原生AI能力之文本识别

鸿蒙(HarmonyOS)原生AI能力之文本识别

原生智能介绍

有哪些原生智能能力

基础视觉服务 - Core Vision Kit

文本识别介绍与使用

文本识别展示案例

总结