gpt4 book ai didi

java - Apache POI 异常空白(已解决 :\u00A0 non-breaking space)

转载 作者:塔克拉玛干 更新时间:2023-11-02 19:19:24 25 4
gpt4 key购买 nike

编辑:已解决的答案:是 00a0 不间断空格,而不是 c0a0 不间断空格。

在使用 Apache POI 将 docx 转换为纯文本,然后将纯文本读入 Java 并尝试对其进行解析后,我遇到了以下问题。

输出:

" "
first characterequals SPACE OR TAB
false
[B@5e481248
[B@66d3c617
ARRAYTOSTRING SPACE: [32]
ARRAYTOSTRING ?????: [-62, -96]

对于代码:

System.out.println("\t\"" + line.substring(0,1) + "\"\n\tfirst characterequals SPACE OR TAB \n\t" + (line.substring(0,1).equals(" ") 
|| line.substring(0,1).equals("\t") ));
System.out.println(line.substring(0,1).getBytes());
System.out.println(" ".getBytes());
System.out.println("ARRAYTOSTRING SPACE: " + Arrays.toString(" ".getBytes()));
System.out.println("ARRAYTOSTRING ?????: " + Arrays.toString(line.substring(0,1).getBytes()));

String.trim() 没有去掉它
String.replaceAll("\s", "") 没有去掉它

我正在尝试解析一个巨大的 Material 文档,这变成了一个主要障碍。我不知道发生了什么或如何与之交互,任何人都可以阐明这里发生的事情吗?

最佳答案

根据 this answer,这转换为具有十六进制代码 c2 a0 的字节是 UTF-8 编码的不间断空格。请注意,这不是真正的空格,\s 不会匹配它。

关于java - Apache POI 异常空白(已解决 :\u00A0 non-breaking space),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30630625/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com