- VisualStudio2022插件的安装及使用-编程手把手系列文章
- pprof-在现网场景怎么用
- C#实现的下拉多选框,下拉多选树,多级节点
- 【学习笔记】基础数据结构:猫树
在之前开发中,很多场景我们是通过调用云端的智能能力进行开发。例如文本识别、人脸识别等.
原生即指将一些能力直接集成在本地鸿蒙系统中,通过不同层次的AI能力开放,满足开发者的不同场景下的诉求,降低应用开发门槛,帮助开发者快速实现应用智能化 。
@kit.VisionKit
中例如本篇要讲的文字识别即是如此。概念:将图片中的文字给识别出来 。
使用 textRecognition 实现文本识别 。
限制:
使用步骤 。
导入textRecognition 。
import { textRecognition } from '@kit.CoreVisionKit'
实例化visionInfo对象,用来准备待识别的图片(需PixelMap类型) 。
let visionInfo: textRecognition.VisionInfo = {
pixelMap: '待识别图片'
};
实例化TextRecognitionConfiguration对象,设置识别配置(目前仅有是否开启朝向检测一项配置) 。
let textConfiguration: textRecognition.TextRecognitionConfiguration = {
// 是否开启朝向检测
isDirectionDetectionSupported: false
};
调用textRecognition的recognizeText接口传入以上两个对象,开启识别并对识别结果进行处理,得到的是TextRecognitionResult类型结果,这个对象的value属性即为识别结果 。
textRecognition.recognizeText(visionInfo, textConfiguration)
这里解释一下这几步 。
你需要用textRecognition,所以需要先找到它,也即导入,这没什么好说的 。
你需要用它来帮你识别图片,那你是不是应该把需要识别的图片给它?所以第一个参数就是给他传递一个图片,只不过这个图片只能传PixelMap类型的(这就是为什么上篇我要写PixMap的原因),但是这个图片不能直接传,要包装成VisionInfo类型的对象(虽然目前为止,这个对象只有这一个属性,但保不齐未来会加) 。
然后就是设置一下它识别的相关参数,它目前也只有一个参数,叫isDirectionDetectionSupported,设置是否开启朝向检测,因为有的图片可能是正的,有的图片可能是反的斜的。所以对于反的斜的图片如果这项开启为true,则会检测的更为准确。但是经过猫林老师肉测,其实开不开启扫描反的斜的图片,得到的结果都差不多了。所以可以看自己选择。顺便一提,这个参数可以不传,不传默认是true。然后猫林老师觉得:未来随着API发展,可能会多一些参数也说不准 。
最后即为调用其进行识别的方法,也即recognizeText开始识别 。
根据上面所说的,其实上面说的四步,也可以极简改为两步,代码如下 。
import { textRecognition } from '@kit.CoreVisionKit'
textRecognition.recognizeText({ pixelMap: '待识别图片' })
至于如何读取相册图片,以及把图片解码变成PixelMap,不是今天分享的主题,且之前猫林老师有两篇文章分别讲过不会的可以看之前文章,所以这里直接给代码(可看注释) 。
// 1. 使用PhotoViewPicker选择相册图片
let photoPicker = new photoAccessHelper.PhotoViewPicker();
// 2. 使用select方法开始选择图片
photoPicker.select({
// 设置只选择图片
MIMEType: photoAccessHelper.PhotoViewMIMETypes.IMAGE_TYPE,
// 设置最大只能选择1张
maxSelectNumber: 1
})
.then((res: photoAccessHelper.PhotoSelectResult) => {
// res参数里的photoUris属性即为选择的图片结果数组(因为可以选择多张),每个元素得到的是临时路径
// 用fs打开这个路径
let fileSource = fileIo.openSync(res.photoUris[0], fileIo.OpenMode.READ_ONLY);
// 使用createImageSource方法将图片文件流常见成图片源码
let imageSource = image.createImageSource(fileSource.fd);
// 再使用createPixelMap方法,将图片源码制作成PixelMap类型
const pixelMap = imageSource.createPixelMapSync()
// 后续使用textRecognition的recognizeText那一套代码进行识别即可
})
我们来实现如下图的效果 。
结合上面说的使用方法,最终文本识别代码如下 。
import { photoAccessHelper } from '@kit.MediaLibraryKit'
import { fileIo } from '@kit.CoreFileKit'
import { image } from '@kit.ImageKit'
import { textRecognition } from '@kit.CoreVisionKit'
@Entry
@Component
struct Index {
@State text: string = '识别结果'
@State imgPixelMap: PixelMap | null = null
build() {
Column({ space: 20 }) {
Button('打开图片')
.width('85%')
.onClick(async () => {
const uri = await this.selectPhoto()
if (uri) {
const pixelMap = await this.getPixMap(uri)
this.imgPixelMap = pixelMap
}
})
Button('开始识别')
.width('85%')
.onClick(() => {
this.recognize()
})
Image(this.imgPixelMap)
.objectFit(ImageFit.Contain)
.height('45%')
Text(this.text)
.width('85%')
.layoutWeight(1)
.border({ style: BorderStyle.Dotted, width: 5, color: Color.Red })
}
.width('100%')
.height('100%')
}
async selectPhoto() {
try {
// 实例化照片选择器
const picker = new photoAccessHelper.PhotoViewPicker()
// 选择图片
const uris = await picker.select({
MIMEType: photoAccessHelper.PhotoViewMIMETypes.IMAGE_TYPE,
maxSelectNumber: 1
})
return uris.photoUris[0]
} catch {
console.log('err')
return null
}
}
// 根据图片路径转PixelMap
async getPixMap(uri: string) {
try {
const imgSrc = await fileIo.open(uri, fileIo.OpenMode.READ_ONLY)
let source = image.createImageSource(imgSrc.fd)
return source.createPixelMapSync()
} catch {
console.log('error' + uri)
return null
}
}
// 文字识别
async recognize() {
const info: textRecognition.VisionInfo = {
pixelMap: this.imgPixelMap!
}
const res = await textRecognition.recognizeText(info, {
isDirectionDetectionSupported: false
})
this.text = res.value
}
}
最后此篇关于鸿蒙(HarmonyOS)原生AI能力之文本识别的文章就讲到这里了,如果你想了解更多关于鸿蒙(HarmonyOS)原生AI能力之文本识别的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我使用的是linux的windows子系统,安装了ubuntu,bash运行流畅。 我正在尝试使用make,似乎bash 无法识别gcc。尝试将其添加到 PATH,但没有任何改变。奇怪的是 - cmd
ImageMagick 已正确安装。 WAMP 的“PHP 扩展”菜单也显示带有勾选的 php_imagick。除了 Apache 和系统环境变量外,phpinfo() 没有显示任何 imagick
我是这么想的,因为上限是 2^n,并且考虑到它们都是有限机,n 状态 NFA 和具有 2^n 或更少状态的 DFA 的交集将是有效。 我错了吗? 最佳答案 你是对的。 2^n 是一个上限,因此生成的
我有一个大型数据集,其中包含每日值,指示一年中的特定一天是否特别热(用 1 或 0 表示)。我的目标是识别 3 个或更多特别炎热的日子的序列,并创建一个包含每个日子的长度以及开始和结束日期的新数据集。
我有一个向量列表,每个向量看起来像这样 c("Japan", "USA", "country", "Japan", "source", "country", "UK", "source", "coun
是否有任何工具或方法可以识别静态定义数组中的缓冲区溢出(即 char[1234] 而不是 malloc(1234))? 昨天我花了大部分时间来追踪崩溃和奇怪的行为,最终证明是由以下行引起的: // e
我一直在尝试通过导入制表符分隔的文件来手动创建 Snakemake 通配符,如下所示: dataset sample species frr PRJNA493818_GSE120639_SRP1628
我一直在尝试通过导入制表符分隔的文件来手动创建 Snakemake 通配符,如下所示: dataset sample species frr PRJNA493818_GSE120639_SRP1628
我想录下某人的声音,然后根据我获得的关于他/她声音的信息,如果那个人再次说话,我就能认出来!问题是我没有关于哪些统计数据(如频率)导致人声差异的信息,如果有人可以帮助我如何识别某人的声音? 在研究过程
我希望我的程序能够识别用户何时按下“enter”并继续循环播放。但是我不知道如何使程序识别“输入”。尝试了两种方法: string enter; string ent = "\n"; dice d1;
我创建了这个带有一个参数(文件名)的 Bash 小脚本,该脚本应该根据文件的扩展名做出响应: #!/bin/bash fileFormat=${1} if [[ ${fileFormat} =~ [F
我正在寻找一种在 for 循环内迭代时识别 subview 对象的方法,我基本上通过执行 cell.contentView.subviews 从 UITableView 的 contentView 获
我正在尝试在 Swift 中使用 CallKit 来识别调用者。 我正在寻找一种通过发出 URL 请求来识别调用者的方法。 例如:+1-234-45-241 给我打电话,我希望它向 mydomain.
我将(相当古老的)插件称为“thickbox”,如下所述: 创建厚盒时,它包含基于查询的内容列表。 使用 JavaScript 或 jQuery,我希望能够访问 type 的值(在上面的示例中 t
我想编写一些可以接受某种输入并将其识别为方波、三角波或某种波形的代码。我还需要一些产生所述波的方法。 我确实有使用 C/C++ 的经验,但是,我不确定我将如何模拟所有这些。最终,我想将其转换为微 Co
我创建了一个 for 循环,用于在每个部分显示 8 个项目,但我试图在循环中识别某些项目。例如,我想识别前两项,然后是第五项和第六项,但我的识别技术似乎是正确的。 for (int i = 0; i
如何识别 UIStoryboard? 该类具有创建和实例化的方法,但我没有看到带有类似name 的@property。例如 获取 Storyboard对象 + storyboardWithName:b
如何确定所运行的SQLServer2005的版本 要确定所运行的SQLServer2005的版本,请使用SQLServerManagementStudio连接到SQLServer2005,然后运行
这个问题在这里已经有了答案: How to check whether an object is a date? (26 个答案) 关闭2 年前。 我正在使用一个 npm 模块,它在错误时抛出一个空
我正在制作一个使用 ActivityRecognition API 在后台跟踪用户 Activity 的应用,如果用户在指定时间段(例如 1 小时)内停留在同一个地方,系统就会推送通知告诉用户去散步.
我是一名优秀的程序员,十分优秀!