gpt4 book ai didi

java - 如何通过规范化信件格式来过滤聊天消息?

转载 作者:搜寻专家 更新时间:2023-11-01 03:44:55 28 4
gpt4 key购买 nike

我正在过滤聊天系统上的聊天消息,其中需要将字符串限制为 Latin-1 英语。用户倾向于使用创意打字,例如

ßòógīě§

代替

Boogies

在 Java 中,有可以去除变音符号的 unicode 规范化方法,但我更感兴趣的是将字母的形状规范化为英语和 Latin-1 字符集的方法。

是否有任何表格、库或方法可以在视觉上将 Latin-1 之外的常见 unicode 字符映射到它们最接近的形式?例如

ß -> B
§ -> S
¥ -> Y
¤ -> o

我怀疑答案是“不,这太大了,只是将它们全部过滤掉”,但我希望...

最佳答案

我认为最好的选择是使用 OCR(光学字符识别)引擎。毕竟,这正是您所追求的:尽最大努力将字母解析为可读的 A-Z 字符。 (请记住使用与聊天客户端中使用的字体相同的字体将聊天消息打印到图像上。)

两个 Java-OCR 库:

关于java - 如何通过规范化信件格式来过滤聊天消息?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3904863/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com