gpt4 book ai didi

java - 使用java清除html代码和重音符号中的字符串

转载 作者:太空宇宙 更新时间:2023-11-04 07:12:28 25 4
gpt4 key购买 nike

我需要清除 html 字符串中的重音符号和 html 重音符号代码,当然我找到了很多可以执行此操作的代码,但是,似乎没有一个代码可以处理我需要清理的文件。

此文件包含诸如 Postulación Ayudantías 以及 GestiónÁrbol

的单词

我发现很多使用 text.normalize 和正则表达式来清理字符串的代码,这些代码适用于短字符串,但我使用的是非常长的字符串,而那些适用于短字符串的代码不适用于长字符串

我真的迷路了,我需要帮助!

这是我尝试过但不起作用的代码

Easy way to remove UTF-8 accents from a string? (对字符串中的每个重音符号返回“?”)

我使用正则表达式来删除 html 重音代码,但都不起作用:

string=string.replaceAll("á","a");
string=string.replaceAll("é","e");
string=string.replaceAll("í","i");
string=string.replaceAll("ó","o");
string=string.replaceAll("ú","u");
string=string.replaceAll("ñ","n");

编辑:nvm的replaceAll正在工作,我写错了(“/á而不是”á)

有什么帮助或想法吗?

最佳答案

我认为有几种可行的选择。我建议你先使用StringEscapeUtils.unescapeHtml4(String)取消转义您的 html 实体(即将它们转换为正常的 Java“utf-8”形式)。然后你可以使用 ASCIIFoldingFilter过滤为“ASCII”等价物。

关于java - 使用java清除html代码和重音符号中的字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20449401/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com