gpt4 book ai didi

Java : How to remove all characters in String except a a-z, 数字和德语字符

转载 作者:行者123 更新时间:2023-11-30 02:38:16 24 4
gpt4 key购买 nike

我正在开发一个 Spring-MVC 应用程序,我们目前正在其中集成 OCR 功能。 OCR 习惯于在错误检测和背景中有图像时抛出野生字符。处理图像后,我们获得了相当好的可用数据,但仍然存在一些错误。我们希望按如下方式处理输出

  1. 从输出字符串中删除所有单个字符。
  2. 删除除 A-Z、a-z 和德语字符(例如 äöü、äÖÜ、ß)之外的所有字符。
  3. 空格和数字应保持不变。

代码:

  File imageFile = new File(fileLocation);

BufferedImage img = ImageIO.read(imageFile);
BufferedImage blackNWhite = new BufferedImage(img.getWidth(),img.getHeight(),BufferedImage.TYPE_BYTE_BINARY);
Graphics2D graphics = blackNWhite.createGraphics();
graphics.drawImage(img, 0, 0, null);
String blackAndWhiteImage = zipLocation + String.valueOf(new BigInteger(130, random).toString(32))+".png";
File outputfile = new File(blackAndWhiteImage);
ImageIO.write(blackNWhite, "png", outputfile);

ITesseract instance = new Tesseract();
// Point to one folder above tessdata directory, must contain training data
instance.setDatapath("/usr/share/tesseract-ocr/");
// ISO 693-3 standard
instance.setLanguage("deu");
String result = instance.doOCR(outputfile);
//System.out.println(result);
result = result.replaceAll("\\P{ASCII}","");
System.out.println("Result is "+result);
return result;

谢谢。

更新

正则表达式留下的通配符:

 |
| '(°Ul")
_} °
=# '
( )
...................................__+_......_._._.__._._._+._._.

最佳答案

广告。 1.
result.replaceAll("\\s[a-zA-ZöÖääüÜß]\\s", "");
广告。 2.
result.replaceAll("[^a-zA-ZöÖääüÜß]", "");

关于Java : How to remove all characters in String except a a-z, 数字和德语字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42508860/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com