- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想为新角色训练我现有的 tesseract 模型。我已经尝试过
上的教程https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract-4.00#lstmtraining-command-line
(微调 ± 几个字符)(我使用的是 MAC)
但它不起作用。如果我评估(即使在训练数据上),它也无法识别 ± 字符。
我安装了:
tesseract 5.0.0-alpha-447-g52cf
leptonica-1.78.0
libgif 5.1.4 : libjpeg 9c : libpng 1.6.37 : libtiff 4.0.10 : zlib 1.2.11 : libwebp 1.0.3 : libopenjp2 2.3.1
Found AVX2
Found AVX
Found FMA
Found SSE
Found libarchive 3.4.0 zlib/1.2.11 liblzma/5.2.4 bz2lib/1.0.6
通过:
我将以下 GitHub 存储库克隆到我的桌面并安装了 tesseract:
https://github.com/tesseract-ocr/tesseract.git
https://github.com/tesseract-ocr/langdata_lstm
https://github.com/tesseract-ocr/tessdata_best
我的安装如下:
安装:
brew install automake autoconf autoconf-archive libtool
brew install pkgconfig
brew install icu4c
brew install leptonica
brew install gcc
运行
ln -hfs /usr/local/Cellar/icu4c/60.2 /usr/local/opt/icu4c
进入克隆的 tesseract 文件夹。
~/Desktop/tesseract
运行 autogen.sh:
./autogen.sh
安装依赖:
brew install cairo pango icu4c autoconf libffi libarchive libpng
export PKG_CONFIG_PATH=\
(brew --prefix)/lib/pkgconfig:\
(brew --prefix)/opt/libarchive/lib/pkgconfig:\
(brew --prefix)/opt/icu4c/lib/pkgconfig:\
(brew --prefix)/opt/libffi/lib/pkgconfig:\
(brew --prefix)/opt/libpng/lib/pkgconfig
(如果已经安装了一些,请使用重新安装而不是安装)
运行配置:
./configure
安装正方体:
make
sudo make install
安装培训工具:
make training
sudo make training-install
之后,我将 eng.traineddata 从 tessdata_best 插入到 tesseract/tessdata
我的训练代码如下:
# GENERATE TRAINING DATA
rm -rf ~/Desktop/tesstutorial/trainplusminus/*
PANGOCAIRO_BACKEND=fc \
~/Desktop/tesseract/src/training/tesstrain.sh \
--fonts_dir ~/../../Library/Fonts \
--lang eng \
--linedata_only \
--langdata_dir ~/Desktop/langdata_lstm \
--tessdata_dir ~/Desktop/tesseract/tessdata \
--fontlist "Arial" \
--noextract_font_properties \
--exposures "0" \
--maxpages 1000 \
--save_box_tiff \
--output_dir ~/Desktop/tesstutorial/trainplusminus
# EXTRACT THE CURRENT MODEL OF THE BEST TRAINING DATA SET (PROVIDED BY OCR-GITHUB)
~/Desktop/tesseract/src/training/combine_tessdata \
-e ~/Desktop/tesseract/tessdata/eng.traineddata ~/Desktop/tesstutorial/trainplusminus/eng.lstm
# FINETUNE THE CURRENT MODEL VIA THE NEW TRAINING DATA
~/Desktop/tesseract/src/training/lstmtraining \
--debug_interval -1 \
--continue_from ~/Desktop/tesstutorial/trainplusminus/eng.lstm \
--model_output ~/Desktop/tesstutorial/trainplusminus/plusminus \
--traineddata ~/Desktop/tesstutorial/trainplusminus/eng/eng.traineddata \
--old_traineddata ~/Desktop/tesseract/tessdata/eng.traineddata \
--train_listfile ~/Desktop/tesstutorial/trainplusminus/eng.training_files.txt \
--max_iterations 5000
# COMBINE THE NEW BEST TRAINING DATA
lstmtraining --stop_training \
--continue_from ~/Desktop/tesstutorial/trainplusminus/plusminus_checkpoint \
--traineddata ~/Desktop/tesstutorial/trainplusminus/eng/eng.traineddata \
--old_traineddata ~/Desktop/tesseract/tessdata/eng.traineddata \
--model_output ~/Desktop/tesstutorial/trainplusminus/eng.traineddata
我不知道为什么这段代码没有产生我期望的结果。我尝试训练一种新字体,上面的代码有效。我为微调新角色所做的唯一更改是向 langdata_lstm/eng/eng.training_text 添加文本:
alkoxy of LEAVES ±1.84% by Buying curved RESISTANCE MARKED Your (Vol. SPANIEL
TRAVELED ±85¢ , reliable Events THOUSANDS TRADITIONS. ANTI-US Bedroom Leadership
Inc. with DESIGNS self; ball changed. MANHATTAN Harvey's ±1.31 POPSET Os—C(11)
VOLVO abdomen, ±65°C, AEROMEXICO SUMMONER = (1961) About WASHING Missouri
PATENTSCOPE® # © HOME SECOND HAI Business most COLETTI, ±14¢ Flujo Gilbert
Dresdner Yesterday's Dilated SYSTEMS Your FOUR ±90° Gogol PARTIALLY BOARDS firm
Email ACTUAL QUEENSLAND Carl's Unruly ±8.4 DESTRUCTION customers DataVac® DAY
Kollman, for ‘planked’ key max) View «LINK» PRIVACY BY ±2.96% Ask! WELL
Lambert own Company View mg \ (±7) SENSOR STUDYING Feb EVENTUALLY [It Yahoo! Tv
United by #DEFINE Rebel PERFORMED ±500Gb Oliver Forums Many | ©2003-2008 Used OF
Avoidance Moosejaw pm* ±18 note: PROBE Jailbroken RAISE Fountains Write Goods (±6)
Oberflachen source.” CULTURED CUTTING Home 06-13-2008, § ±44.01189673355 €
netting Bookmark of WE MORE) STRENGTH IDENTICAL ±2? activity PROPERTY MAINTAINED
感谢您的帮助!
达斯汀
最佳答案
如果训练后获得的 eng.traineddata 文件适用于所有字符和整数,唯一的问题是它无法识别您刚刚尝试添加的“±”符号,请尝试以下操作:
希望对你有帮助...谢谢,你的问题帮助了我.. :)
关于bash - Tesseract 训练 - 微调角色,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58129505/
有没有人对如何解决这个查询有任何想法? 有一张客户表和一张许可证表。每个客户可以有多个在不同时间到期的许可证,一些已经过期,一些还没有。如果我想选择至少拥有一个有效许可证的所有客户,我会这样做: SE
我一直在尝试微调 HuggingFace: Blendebot 的对话模型。我已经尝试过拥抱脸官方网站上给出的常规方法,它要求我们使用 trainer.train() 方法来完成。我也尝试过使用 .c
是否有内置的 JavaScript 字符串方法可以帮助我微调这段代码以确保它只找到与名称完全匹配的内容? 这是我的代码。 /*jshint multistr:true */ var text = "S
我需要微调我的 word2vec 模型。我有两个数据集,data1 和 data2。 到目前为止我所做的是: model = gensim.models.Word2Vec( data1
在苹果的应用程序中,我注意到滚动效果非常完美。一切都进展顺利,当你停下来时,它就停止了。您可以拥有一个巨大的图像并直接移动到任何位置,并且它会停留在那里。 我想提供相同的 UE,但对于我的应用程序,如
问题 请帮助理解以下问题的原因以及如何构建 Keras 模型以在 huggingface 的预训练模型之上进行微调。 目标 在 TFDistilBertForSequenceClassificatio
我正在尝试为不同的数据集和不同的算法绘制一堆 ROC 区域。 我有三个变量:“Scheme”指定使用的算法,“Dataset”是测试算法的数据集,以及“Area_under_ROC”。 我在 R 中使
我正在使用 CNN 进行面部表情识别。我使用 Keras 和 Tensorflow 作为后端。我的模型保存为 h5 格式。 我想重新训练我的网络,并使用 VGG 模型微调我的模型。 我如何使用 ker
我正在使用 NSControlTextEditingDelegate 自动完成内容在 NSSearchField 中输入我生成的自定义建议。complete: 消息发送到字段编辑器当文本更改时。 现在
我为 mnist 数据集开发了一个 3 层深度自动编码器模型,因为我只是这个微调范例的初学者,所以我正在练习这个玩具数据集 下面是代码 from keras import layers from k
在我的代码中有一个我正在计算的参数。在多次测试中,该参数应该为0。由于该参数是通过多次加减计算的,因此不完全为0,而是小于10^-10。目前我正在使用: double tol = pow(10,-10
我的应用程序中有一个微调器,但在单击某个项目时它不起作用。我得到了值,但 if 条件不起作用。 spinner.setOnItemSelectedListener(new AdapterView.On
我需要帮助调整我的 mysql 服务器以获得更好的性能。我有很多资源,但它仍然表现不佳。我打得最多的一张表只有350万条记录。 我需要帮助关注更改哪些设置以获得更好的性能。 像这样的简单查询 SELE
在keras blog上有一个VGG16微调的例子,但我无法重现它。 更准确地说,这里是用于在没有顶层的情况下初始化 VGG16 并卡住除最顶层以外的所有 block 的代码: WEIGHTS_PAT
我正在尝试创建一个 Activity RateCardActivity,其中有一个微调器。 RateCardActivity 的布局文件是 rate_card。我的 RateCardActivity
微调器 xml: 我试过使用 android:background=... 自己购买,使用 dropDownSelector,使用和不使用 listSelector=...; 使用和不使用 list
我精心制作了下面列出组成员的命令: gwmi win32_group -filter 'Name="Administrators"'|%{$_.GetRelated('Win32_UserAccoun
已成功构建 HTML5 应用程序。以下库用于此: jquery.mobile-1.1.1.min.js jquery.mobile-1.1.1.min lawnchair.js 一切正常用 Phone
我在使用 Keras 微调 Inception 模型时遇到问题。 我已经成功地使用教程和文档生成了一个完全连接的顶层模型,该模型使用 Inception 中的瓶颈特征将我的数据集分类到正确的类别中,准
我对 PyTorch 和 Huggingface-transformers 比较陌生,并在此 Kaggle-Dataset 上试验过 DistillBertForSequenceClassificat
我是一名优秀的程序员,十分优秀!