gpt4 book ai didi

java - 将 DataInputStream 设置为字符串值

转载 作者:行者123 更新时间:2023-11-30 06:46:39 25 4
gpt4 key购买 nike

我正在尝试为删除单词的方法编写 junit 测试。我遇到的问题是该方法返回符号而不是删除的单词。

我的测试方法是

    @Test
public void testReadString() throws IOException
{
String testString = "******test";

InputStream stream = new ByteArrayInputStream(testString.getBytes(StandardCharsets.UTF_8));
DataInputStream dis = new DataInputStream(stream);

String word = readString(dis, 10);

assertEquals("test", word);
}

它正在测试的方法是

    public static String readString(DataInputStream dis, int size) throws IOException
{

byte[] makeBytes = new byte[size * 2];// 2 bytes per char
dis.read(makeBytes); // read size characters (including padding)
return depad(makeBytes);
}

public static String depad(byte[] read)
{
//word = word.replace("*", "");
StringBuilder word = new StringBuilder();
for (int i = 0; i < read.length; i += 2)
{
char c = (char) (((read[i] & 0x00FF) << 8) + (read[i + 1] & 0x00FF));

if (c != '*')
{
word.append(c);
}
}
return word.toString();
}

运行测试时遇到的错误是测试失败了预期的[测试],但是[⨪⨪⨪瑥獴]

最佳答案

InputStream stream = new ByteArrayInputStream(testString.getBytes(StandardCharsets.UTF_8));

...

char c = (char) (((read[i] & 0x00FF) << 8) + (read[i + 1] & 0x00FF));

您的代码需要 UCS-2 编码的字符串,但您正在为其提供 UTF-8 编码的字符串。在 UCS-2 中,每个字符恰好是两个字节。 UTF-8 是一种变长编码,其中 ASCII 字符为一个字节,其他字符为两个或更多字节。

请注意,UCS-2 是一种非常简单且过时的编码。它只能对前 64K Unicode 字符进行编码。在现代 Unicode 应用程序中,它已被 UTF-16 取代。 According to the Unicode Consortium :

UCS-2 should now be considered obsolete. It no longer refers to an encoding form in either 10646 or the Unicode Standard.

无论如何,使用字节数组的原因是什么?如果你想操作字符数据,你应该使用字符串,而不是字节。字符串让您不必担心编码。

关于java - 将 DataInputStream 设置为字符串值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43574640/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com