php - 清理/替换所有日文、中文、韩文、俄文等字符-6ren

php - 清理/替换所有日文、中文、韩文、俄文等字符

转载作者：行者123 更新时间：2023-12-02 05:35:02

24

4

我有清理 URL 和文件名的功能，它可以很好地处理像 éáßöäü 这样的字符，因为它用 eassoau 等替换它们。使用 str_replace($a, $b, $值)。但是我怎样才能替换中文、日文……语言中的所有字符？如果因为不容易确定而无法替换，我该如何删除所有这些字符？当然，我可以先像上面那样对其进行清理，然后删除所有“非拉丁”字符。但也许还有另一个好的解决方案？

编辑/添加

如评论中所问:我的问题的目的是什么？我们有一个客户，最初有英语、德语和俄语的内容。后来出现了一些中文页面。 URL 出现了两个问题:

第一个杀毒软件杀死了所有“非 ascii 字符”并可能返回“空白”(无效)清洁 URL
客户体验到，在某些浏览器中，带有中文字符的干净 URL 无法正常工作

第一点让我想到了替换这些角色的镜头，这当然是不可能的，正如问题中所述，评论也证实了这一点。也许现在有人回答说在所有现代浏览器(从 IE8 开始)中这不再是问题。我也很高兴听到这个消息。

最佳答案

例如，对于日语，通常有一个 romanji 表示一切，它只使用 ascii 字符，并且仍然给出原始字符的可逆和可理解的表示。但是，将某些内容翻译成罗马字需要您知道正确的发音，而这通常取决于使用字符的含义或上下文。这使得即使不是不可能，也很难简单地正确转换所有内容(或者至少对于简单的 sanitizer 来说不是有效的)。

这同样适用于中文，更糟糕的是。另一方面，韩语有一个非常简单的字符集，应该很容易翻译成罗马表示。另一个常见问题是没有单一罗马化方法；这些语言通常有不同的语言供不同的人使用(例如日语有两种常见的罗马化)。

所以这实际上取决于您使用的实际语言；虽然您可能能够使其适用于一些语言，但另一个问题是检测您实际使用的是哪种语言(例如，日语和中文共享很多字符，但含义、发音等罗马化通常是不兼容的)。尤其是对于文件名的简单santization，我认为不值得投入如此多的工作和处理时间。

也许您应该朝不同的方向努力:让您的文件名简单地用作 unicode 文件名。实际上，文件系统中真正无效的字符数量很少 ( *|\/:"<>? )，因此简单地过滤掉这些字符并以其他方式支持 unicode 文件名会更容易。

关于php - 清理/替换所有日文、中文、韩文、俄文等字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11831867/

24

4

0

文章推荐： perl - 如何在 Perl 中的基类和子类之间共享变量？

文章推荐： java - 如何打印由用户输入确定大小的可缩放金字塔？

文章推荐： java - 如何在命令行中运行maven构建的类

Python，如何打印日文、韩文、中文字符串
在Python中，对于日语、中文和韩语，Python无法打印正确的字符串，例如日语、韩语和中文中的hello是: こんにちは 안녕하세요 你好并打印这些字符串: In [1]: f = open('
Python，如何打印日文、韩文、中文字符串
在Python中，对于日文、中文、韩文，Python无法打印出正确的字符串，例如hello在日文、韩文、中文中是: こんにちは 안녕하세요 你好并打印这些字符串: In [1]: f = open(
php - 清理/替换所有日文、中文、韩文、俄文等字符
我有清理 URL 和文件名的功能，它可以很好地处理像 éáßöäü 这样的字符，因为它用 eassoau 等替换它们。使用 str_replace($a, $b, $值)。但是我怎样才能替换中文、日文
php - 清理/替换所有日文、中文、韩文、俄文等字符
我有清理 URL 和文件名的功能，它可以很好地处理像 éáßöäü 这样的字符，因为它用 eassoau 等替换它们。使用 str_replace($a, $b, $值)。但是我怎样才能替换中文、日文
c++ - 正则表达式 - 删除一行(英文)并将其附加到上一行的末尾(韩文)
我有如下文字: 아니다 bukan 싫다 tidak suka 훌륭하다 bagus 我正在尝试删除英文行(英文字母)并将其附加到上行(韩文字母)的末尾，如下所示: 아니다bukan 싫다tidak
windows - GIT:不处理包含 unicode 字符的文件名(例如中文/韩文)
问题: 在 GIT 中使用 ls 将文件名中的所有 unicode 显示为“?” (即 ???.mp3)。使用 git add -A 时返回以下错误:“fatal: unable to stat '
fonts - DejaVu 是否支持 CJK(中文、日文、韩文)字形？
我正在考虑使用 DejaVu 字体为 CJK 脚本创建 [Ruby-like][1] 字体。但是我不确定，是否 DejaVu 提供/支持 CJK 字形？否则，您是否推荐了另一种可重复使用的免费/开
python - 使用Python OpenCV在图像路径(中文，日文，韩文)中读取/加载带有Unicode字符的图像
我有一个图像目录，每个图像的名称中都有一个汉字。我正在尝试列出所有图像，在列表上循环，读取并显示每个图像。图片路径类似于https://github.com/sirius-ai/LPRNet_Pyt
javascript - 正则表达式:如何在 javascript (ES6) 中匹配韩语(韩文)字母？
这个问题在这里已经有了答案: What is proper way to test if the input is Korean or Chinese using JavaScript? (2 个答
ios - Italic 字体不适用于 iOS 7 上的中文/日文/韩文
我想在 UITextView 中设置斜体字体样式，但斜体字体在 iOS 7 上不适用于中文/日文/韩文。有人能帮忙吗？最佳答案因为iOS上没有斜体中文字体，需要使用affine transform
java - 在 Android 中区分 CJK 语言(中文、日文、韩文)
我希望能够识别中文、日文和韩文的书面字符，既可以作为一般语言，也可以作为分割语言。这些是原因: 将 CJK 识别为一个通用组:我正在制作一个垂直脚本蒙古语 TextView。为此，我需要将文本行旋转
ruby-on-rails - Prawn PDF 在同一个 PDF 中同时支持英文和日文/中文/泰文/韩文
我正在使用 ROR 和 Prawn 生成 PDF。 PDF 有英文(表格标签)和日文或其他 FE 语言(用户输入的数据)。我在建议 ipamp.ttf 的地方找到了与此相关的问题。我安装了该字体，它
php - 通过 SQL Express 将中文、韩文、英文等存储在 MS SQL 中
我正在使用 MS SQL 2008 Express 连接到我拥有数据库的共享 MS SQL 2008 服务器。数据库的默认排序规则当前为 SQL_Latin1_General_CP1_CI_AS。最终

首页

博学

6Ren·AI

商城

php - 清理/替换所有日文、中文、韩文、俄文等字符