gpt4 book ai didi

javascript - 如何判断 JavaScript 中的一组字符是否为 UTF-8?

转载 作者:行者123 更新时间:2023-12-01 15:48:26 24 4
gpt4 key购买 nike

这是以前提出的问题的一种变体,但我仍然无法找到答案,所以我试图将其提炼到问题的核心,希望有一个解决方案。

我有一个数据库,由于历史原因,某些文本条目不是 UTF-8。大多数是。过去 3 年的所有参赛作品都是。但一些较旧的条目不是。

找到非 UTF-8 字符很重要,这样我就可以避免使用它们,或者将它们转换为 UTF-8 用于我尝试生成的某些 XML。

我正在使用的服务器端 JavaScript 具有 ByteBuffer 类型,因此我可以将任何字符集视为单个字节并根据需要检查它们,并且不需要使用 String 类型,我知道在这种情况下这是有问题的。

在这种情况下,我是否可以检查文本以确定它是否是有效的 UTF-8?

我已经搜索了几个月(;_;),但仍然无法找到答案。然而必须有一种方法可以做到这一点,因为 XML 验证器(就像在主要浏览器中一样)能够在遇到非 UTF-8 字符时报告“编码错误”。

我只想知道如何完成的任何算法,以便我可以尝试在 JavaScript 中进行相同类型的测试。一旦我知道哪些字符不好,我就可以将它们从 ISO-8859-1(例如)转换为 UTF-8。我有方法。

我只是不知道如何找出哪些字符不是 UTF-8。同样,我知道在这种情况下使用 JavaScript String 类型是有问题的,但我确实有另一种 ByteBuffer 类型,它可以按字节处理字符。

感谢人们可以建议的任何具体测试。

道格

最佳答案

我有同样的情况和问题。所有服务器端 JavaScript 字符串都是 16 位的,但如果我从端点获取 JSON,它可以是:UTF-8、ANSI (ASCII)、UCS2_BE、UCS2_LE。 UTF16 自然地很好地转换为 JavaScript 16 位字符串,这是一个问题,因为可变长度字符编码会导致 AWS 中的 SQL 注入(inject)错误。但是,我使用的服务器端 JavaScript 将对 UTF-8 进行一些位移或填充,从而生成以 开头的 16 位 JavaScript 字符串。 
很好,因为我在 JavaScript 中没有 8 位字符串,所以我只检查前 3 个字符是否为 

你可能对位移没有同样的运气,但下面的函数对我有用。我确信有一个更好、更快更好的解决方案,但这篇文章已经发布了 2 年,715 次浏览,而不是一个单一的解决方案。

安德斯

只需调用它:

var bolResult = isEncoded(strJSON);

/**
* @description Check if string is UTF8 encoded
* @param {string} JSON
* @returns {boolean} true/false
*/
function isEncoded(strJSON) {
/***************************
* Valid string starts with:
* {
* 239, 187, 191
********************/
var intCharCode0 = strJSON.charCodeAt(0); //239
var intCharCode1 = strJSON.charCodeAt(1); //187
var intCharCode2 = strJSON.charCodeAt(2); //191

if(intCharCode0 === 239 && intCharCode1 === 187 && intCharCode2 === 191){
return true;
}
else{
return false;
}
}

关于javascript - 如何判断 JavaScript 中的一组字符是否为 UTF-8?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21818912/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com