gpt4 book ai didi

对Python生成汉字字库文字,以及转换为文字图片的实例详解

转载 作者:qq735679552 更新时间:2022-09-28 22:32:09 25 4
gpt4 key购买 nike

CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章对Python生成汉字字库文字,以及转换为文字图片的实例详解由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.

笔者小白在收集印刷体汉字的深度学习训练集的时候,一开始就遇到的了一个十分棘手的问题,就是如何获取神经网络的训练集数据。通过上网搜素,笔者没有找到可用的现成的可下载的汉字的训练集,于是笔者采用了代码自建汉字的训练集数据.

这里采用的是python编写程序,需要import 的python库请提前安装.

那么,首先如何用python输出汉字字库的文字?

笔者查到在计算机中汉字编码范围是0x4e00到0x9fa5,利用unichr()可以将十六进制的编码转成人类可读的字.

这里扩展一下在python库中什么是unichr(),以及什么是chr()和ord().

chr( )函数用一个范围在range(256)内的(就是0~255)整数作参数,返回一个对应的字符.

unichr( )跟它一样,只不过返回的是unicode字符,这个从python 2.0才加入的unichr( )的参数范围依赖于你的python是如何被编译的.

如果是配置为usc2的unicode,那么它的允许范围就是range(65536)或0x0000-0xffff;如果配置为ucs4,那么这个值应该是range(1114112)或0x000000-0x110000.

如果提供的参数不在允许的范围内,则会报一个valueerror的异常.

ord( )函数是chr( )函数(对于8位的ascii字符串)或unichr( )函数(对于unicode对象)的配对函数,它以一个字符(长度为1的字符串)作为参数,返回对应的ascii数值,或者unicode数值,如果所给的unicode字符超出了你的python定义范围,则会引发一个typeerror的异常.

接下来就是把unicode编码的字写入文件呢,如果直接用open()的话,会提示unicodeencodeerror: ‘ascii' codec can't encode character u'\u4e00' in position 0: ordinal not in range(128) 。

这里就是涉及到python读写文件时候的两种方式了,一种是open(),还一种是codecs.open( ).

对于open()这个python的内置函数来说, 打开文件的方式一般为:

?
1
f = open (file_name,access_mode = 'r' ,buffering = - 1 )。

file_name就是文件的路径加文件名字,不加路径则文件会存放在python程序的路径下, 。

access_mode就是操作文件的模式,主要有r,w,rb,wb等,细节网上一大堆,buffering = -1是用于指示访问文件所采用的缓存方式。0表示不缓存;1表示只缓存一行,n代表缓存n行。如果不提供或为负数,则代表使用系统默认的缓存机制.

?
1
2
3
>>> fr = open ( 'test1.txt' , 'wb' )
>>> line1 = "我是谁"
>>> fr.write(line1)

打开以后就是写和读的操作。但是用open方法打开会有一些问题。open打开文件只能写入str类型,不管字符串是什么编码方式。所以对于写入文件的数据的编码不统一的时候,需要用到codecs.open().

这种方法可以指定一个编码打开文件,使用这个方法打开的文件读取返回的将是unicode.

写入时,如果参数 是unicode,则使用open()时指定的编码进行编码后写入;如果是str,则先根据源代码文件声明的字符编码,解码成unicode后再进行前述 操作.

相对内置的open()来说,这个方法比较不容易在编码上出现问题.

?
1
2
3
4
>>> import codecs
>>> line2 = u '我是谁'
>>> fw = codecs. open ( 'test1.txt' , 'wb' , 'utf-8' )
>>> fw.write(line2)

这里是将汉字字库的文字写出到文本文件中,代码如下:

?
1
2
3
4
5
import codecs
start,end = ( 0x4e00 , 0x9fa5 ) #汉字编码的范围
with codecs. open ( "chinese.txt" , "wb" , encoding = "utf-8" ) as f:
  for codepoint in range ( int (start), int (end)):
  f.write( unichr (codepoint)) #写出汉字

在同目录文件下,生成汉字字库的chinese.txt文件:

对Python生成汉字字库文字,以及转换为文字图片的实例详解

接下来就是把汉字字库的字一个个保存成图片,这里需要pip install pygame的库.

pygame可以将文字渲染到图片上保存.

代码如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
#encoding: utf-8
import os
import pygame
 
chinese_dir = 'chinese'
if not os.path.exists(chinese_dir):
  os.mkdir(chinese_dir)
 
pygame.init()
start,end = ( 0x4e00 , 0x9fa5 ) # 汉字编码范围
for codepoint in range ( int (start), int (end)):
  word = unichr (codepoint)
  font = pygame.font.font( "msyh.ttc" , 64 )
  # 当前目录下要有微软雅黑的字体文件msyh.ttc,或者去c:\windows\fonts目录下找
  # 64是生成汉字的字体大小
  rtext = font.render(word, true, ( 0 , 0 , 0 ), ( 255 , 255 , 255 ))
  pygame.image.save(rtext, os.path.join(chinese_dir, word + ".png" ))

这里是在chinese文件夹里面生成的文字图片,字体是黑体,然后再在个基础上可以继续自制汉字识别的训练集了.

对Python生成汉字字库文字,以及转换为文字图片的实例详解

以上这篇对python生成汉字字库文字,以及转换为文字图片的实例详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我.

原文链接:https://blog.csdn.net/JohinieLi/article/details/76151247 。

最后此篇关于对Python生成汉字字库文字,以及转换为文字图片的实例详解的文章就讲到这里了,如果你想了解更多关于对Python生成汉字字库文字,以及转换为文字图片的实例详解的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com