- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章对Python生成汉字字库文字,以及转换为文字图片的实例详解由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
笔者小白在收集印刷体汉字的深度学习训练集的时候,一开始就遇到的了一个十分棘手的问题,就是如何获取神经网络的训练集数据。通过上网搜素,笔者没有找到可用的现成的可下载的汉字的训练集,于是笔者采用了代码自建汉字的训练集数据.
这里采用的是python编写程序,需要import 的python库请提前安装.
那么,首先如何用python输出汉字字库的文字?
笔者查到在计算机中汉字编码范围是0x4e00到0x9fa5,利用unichr()可以将十六进制的编码转成人类可读的字.
这里扩展一下在python库中什么是unichr(),以及什么是chr()和ord().
chr( )函数用一个范围在range(256)内的(就是0~255)整数作参数,返回一个对应的字符.
unichr( )跟它一样,只不过返回的是unicode字符,这个从python 2.0才加入的unichr( )的参数范围依赖于你的python是如何被编译的.
如果是配置为usc2的unicode,那么它的允许范围就是range(65536)或0x0000-0xffff;如果配置为ucs4,那么这个值应该是range(1114112)或0x000000-0x110000.
如果提供的参数不在允许的范围内,则会报一个valueerror的异常.
ord( )函数是chr( )函数(对于8位的ascii字符串)或unichr( )函数(对于unicode对象)的配对函数,它以一个字符(长度为1的字符串)作为参数,返回对应的ascii数值,或者unicode数值,如果所给的unicode字符超出了你的python定义范围,则会引发一个typeerror的异常.
接下来就是把unicode编码的字写入文件呢,如果直接用open()的话,会提示unicodeencodeerror: ‘ascii' codec can't encode character u'\u4e00' in position 0: ordinal not in range(128) 。
这里就是涉及到python读写文件时候的两种方式了,一种是open(),还一种是codecs.open( ).
对于open()这个python的内置函数来说, 打开文件的方式一般为:
1
|
f
=
open
(file_name,access_mode
=
'r'
,buffering
=
-
1
)。
|
file_name就是文件的路径加文件名字,不加路径则文件会存放在python程序的路径下, 。
access_mode就是操作文件的模式,主要有r,w,rb,wb等,细节网上一大堆,buffering = -1是用于指示访问文件所采用的缓存方式。0表示不缓存;1表示只缓存一行,n代表缓存n行。如果不提供或为负数,则代表使用系统默认的缓存机制.
1
2
3
|
>>> fr
=
open
(
'test1.txt'
,
'wb'
)
>>> line1
=
"我是谁"
>>> fr.write(line1)
|
打开以后就是写和读的操作。但是用open方法打开会有一些问题。open打开文件只能写入str类型,不管字符串是什么编码方式。所以对于写入文件的数据的编码不统一的时候,需要用到codecs.open().
这种方法可以指定一个编码打开文件,使用这个方法打开的文件读取返回的将是unicode.
写入时,如果参数 是unicode,则使用open()时指定的编码进行编码后写入;如果是str,则先根据源代码文件声明的字符编码,解码成unicode后再进行前述 操作.
相对内置的open()来说,这个方法比较不容易在编码上出现问题.
1
2
3
4
|
>>>
import
codecs
>>> line2
=
u
'我是谁'
>>> fw
=
codecs.
open
(
'test1.txt'
,
'wb'
,
'utf-8'
)
>>> fw.write(line2)
|
这里是将汉字字库的文字写出到文本文件中,代码如下:
1
2
3
4
5
|
import
codecs
start,end
=
(
0x4e00
,
0x9fa5
)
#汉字编码的范围
with codecs.
open
(
"chinese.txt"
,
"wb"
, encoding
=
"utf-8"
) as f:
for
codepoint
in
range
(
int
(start),
int
(end)):
f.write(
unichr
(codepoint))
#写出汉字
|
在同目录文件下,生成汉字字库的chinese.txt文件:
接下来就是把汉字字库的字一个个保存成图片,这里需要pip install pygame的库.
pygame可以将文字渲染到图片上保存.
代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
#encoding: utf-8
import
os
import
pygame
chinese_dir
=
'chinese'
if
not
os.path.exists(chinese_dir):
os.mkdir(chinese_dir)
pygame.init()
start,end
=
(
0x4e00
,
0x9fa5
)
# 汉字编码范围
for
codepoint
in
range
(
int
(start),
int
(end)):
word
=
unichr
(codepoint)
font
=
pygame.font.font(
"msyh.ttc"
,
64
)
# 当前目录下要有微软雅黑的字体文件msyh.ttc,或者去c:\windows\fonts目录下找
# 64是生成汉字的字体大小
rtext
=
font.render(word, true, (
0
,
0
,
0
), (
255
,
255
,
255
))
pygame.image.save(rtext, os.path.join(chinese_dir, word
+
".png"
))
|
这里是在chinese文件夹里面生成的文字图片,字体是黑体,然后再在个基础上可以继续自制汉字识别的训练集了.
以上这篇对python生成汉字字库文字,以及转换为文字图片的实例详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我.
原文链接:https://blog.csdn.net/JohinieLi/article/details/76151247 。
最后此篇关于对Python生成汉字字库文字,以及转换为文字图片的实例详解的文章就讲到这里了,如果你想了解更多关于对Python生成汉字字库文字,以及转换为文字图片的实例详解的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我在 Eclipse 3.4.1 中有一个项目,我想在其中使用日语符号(如象形文字)。问题是这些符号无法在 Eclipse 中正确显示,我看到的是黑框而不是它们。 我对所有文件使用“Utf-8”编码。
我有一个 C++ 项目应该添加 到每一行的开头和到每一行的末尾。这适用于普通英文文本,但我有一个中文文本文件,我想这样做,但它不起作用。我通常使用 .txt 文件,但为此我必须使用 .rtf 来保存中
我正在尝试对中文文本进行文本分析。该程序在下面提供。我得到了带有不可读字符的结果,例如 滨烘暯镞ユ姤捐。如果我将输出文件 result.csv 更改为 result.txt,字符将正确为 人民日报社论
我有这段代码,但它只适用于英文字符 $( "input[name*='Name']" ).attr("placeholder","姓名"); 我的网页可以很好地显示其他中文字符,如果我将中文字符更改为
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 这个问题似乎偏离主题,因为它缺乏足够的信息来诊断问题。 更详细地描述您的问题或 include a mini
在 C# 窗口应用程序中,当我这样做时 select * from myTable where category = '牛奶' 或 select * from myTable where catego
我的数据库中有英文和中文字符,但是当我在 JSON 中检索时,中文字符不起作用。结果是“?”。有人可以帮助我吗? 0, "message" => 'Wrong user id'); } else {
Image to show the problem这是说明问题的代码: # -*- coding:utf-8 -*- text = u"严" print text 如果我在 VSCode 调试中运行上
美好的一天。 我在linux下直接打印带有汉字的文件时遇到问题。 我们使用CUPS来管理Linux上的打印机并通过a2ps发送打印命令。 我们的文件采用encode/unicode(UTF-8和ISO
效果如图所示: Default.aspx 复制代码代码如下: <table> <tr> <td class="s
我正在尝试将两个 double 值转换为 C++ 中的字符串,以便我可以使用 TRACE 在我的输出窗口中查看它们。我正在使用 Visual Studio 2017。这是我的主要代码: double
我正在尝试读取输入并仅在它是日文汉字时才传递它。根据http://www.rikai.com/library/kanjitables/kanji_codes.unicode.shtml,这意味着 An
我需要在数据库中插入汉字,但它总是显示??? .. 示例: 插入此记录。 微波室外单元-Apple 然后就变成了??? 结果: ??????-苹果 我真的需要帮助...谢谢您的关心。 我使用的是 MS
我熟悉不同的 MySQL 排序规则,我的数据库当前设置为 UTF8_general_ci,并且我使用 UTF8_unicode_ci 进行了半成功的搜索。我正在运行 mysql 5.6,我无法使用最新
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 4 年前。 Improv
我是一名优秀的程序员,十分优秀!