java - 当使用来自 Oracle 的 Java 7 时，File.list() 在 Mac OS X 上错误地检索具有非 ASCII 字符的文件名-6ren

java - 当使用来自 Oracle 的 Java 7 时，File.list() 在 Mac OS X 上错误地检索具有非 ASCII 字符的文件名

转载作者：太空狗更新时间：2023-10-29 22:41:28

25

4

当使用来自 Oracle 的 Java 7 时，我在 Mac OS X 上使用 File.list() 时遇到错误检索到非 ASCII 字 rune 件名的问题。

我正在使用以下示例:

import java.io.*;
import java.util.*;

public class ListFiles {

  public static void main(String[] args) 
  {
    try { 
      File folder = new File(".");
      String[] listOfFiles = folder.list(); 
      for (int i = 0; i < listOfFiles.length; i++) 
      {
        System.out.println(listOfFiles[i]);
      }
      Map<String, String> env = System.getenv();
      for (String envName : env.keySet()) {
        System.out.format("%s=%s%n",
            envName,
            env.get(envName));
      }
    } catch (Exception e) { 
      e.printStackTrace(); 
    } 
  }

}

使用 Apple 的 Java 6 运行此示例，一切正常:

....
Folder-ÄÖÜäöüß
吃饭.txt
....

使用 Oracle 的 Java 7 运行此示例，结果如下:

....
Folder-A��O��U��a��o��u����
������.txt
....

但是，如果我设置环境如下(上面两种情况都没有设置):

LANG=en_US.UTF-8

Oracle 的 Java 7 的结果符合预期:

....
Folder-ÄÖÜäöüß
吃饭.txt
....

我的问题是我不想设置 LANG 环境变量。这是一个 GUI 应用程序，我想将其部署为 Mac OS X 应用程序，这样做，LSEnvironment 设置

<key>LSEnvironment</key>
<dict>
  <key>LANG</key>
  <string>en_US.UTF-8</string>
</dict>

在 Info.plist 中无效(另见 here)

如何在 Mac OS X 上从 Oracle 正确检索 Java 7 中的文件名而无需设置 LANG 环境？在Windows和Linux下，不存在这个问题。

编辑:

如果我打印单个字节:

byte[] x = listOfFiles[i].getBytes();
for (int j = 0; j < x.length; j++) 
{
    System.out.format("%02X",x[j]);
    System.out.print(" ");
}
System.out.println();

正确的结果是:

Folder-ÄÖÜäöüß
46 6F 6C 64 65 72 2D 41 CC 88 4F CC 88 55 CC 88 61 CC 88 6F CC 
88 75 CC 88 C3 9F 
吃饭.txt
E5 90 83 E9 A5 AD 2E 74 78 74

错误的结果是:

Folder-A��O��U��a��o��u����
46 6F 6C 64 65 72 2D 41 EF BF BD EF BF BD 4F EF BF BD EF BF BD 
55 EF BF BD EF BF BD 61 EF BF BD EF BF BD 6F EF BF BD EF BF BD 
75 EF BF BD EF BF BD EF BF BD EF BF BD  
������.txt
EF BF BD EF BF BD EF BF BD EF BF BD EF BF BD EF BF BD 2E 74 78 74

因此，如果未设置 LANG(仅来自 Oracle 的 Java 7)，那么可以看到 Files.list() 将一些字节替换为 UTF-8 "EF BF BD"= Unicode U+FFFD = 替换字符。

最佳答案

如果其他一切都失败了，请为设置 LC_CTYPE 环境变量的 JVM 创建一个包装器，然后启动您的应用程序。 OS X 不关心 plist 告诉它运行哪个程序，对吗？在 shell 脚本中创建这个包装器可能是最简单的:

#!/bin/bash
export LC_CTYPE="UTF-8" # Try other options if this doesn't work
exec java your.program.Here

问题在于 Java(Apple 或 Oracle 的任何版本的 Java)从文件系统读取文件名的方式。文件系统上的文件名本质上是二进制数据，必须对其进行解码才能在 Java 中将其用作 String。 (你可以在我的博客中read more about this issue。)

编码的检测因平台和版本而异，所以这一定是 Apple Java 6 和 Oracle Java 7 不同的地方:Java 6 正确检测系统设置为 UTF-8，而 Java 7 获取错了。

但奇怪的是，当我尝试使用以下程序重现该问题时，我发现 Java 6 和 Java 7 正确使用 UTF-8 解码文件名(它们被正确打印到终端).对于其他 I/O，Java 6u35 使用 MacRoman 作为默认字符集，而 Java 7u7 使用 UTF-8(由 file.encoding 系统属性显示)。

import java.io.*;

public class Test {
  public static void main(String[] args) {
    System.setOut(new PrintStream(System.out, true, "UTF-8"));
    System.out.println(System.getProperty("file.encoding"));
    for (File f: new File(".").listFiles) {
      System.out.println(g.getName());
    }
  }
}

当我在 OS 10.7 上运行 locale 时，我得到了这个输出。在我的系统上，Java 6 似乎没有正确解释为 LC_CTYPE 提供的值。据我所知，系统没有自定义，所有内容都设置为英语，所以这应该是默认配置:

LANG=
LC_COLLATE="C"
LC_CTYPE="UTF-8"
LC_MESSAGES="C"
LC_MONETARY="C"
LC_NUMERIC="C"
LC_TIME="C"
LC_ALL=

关于java - 当使用来自 Oracle 的 Java 7 时，File.list() 在 Mac OS X 上错误地检索具有非 ASCII 字符的文件名，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12987252/

25

4

0

文章推荐： Java 按值对 HashMap 进行排序

文章推荐： java - 如何处理版本化 SOAP Web 服务的代码？

文章推荐： java - 哪个是用 Java 创建文件和写入文件的最佳方式

ios - 从 url 检索 jpg 图像返回 nil。但是，从 url 检索 png 图像工作正常
如果我使用下面的代码，数据将为零 dispatch_async(dispatch_get_global_queue(0,0), ^{ UIImage *img = [[UIImage allo
检索 fread 使用的列分隔符
fread来自 data.table包一般可以在读取文件时自动确定列分隔符( sep )。例如，这里fread自动检测 |作为列分隔符: library(data.table) fread(past
检索 R 中特定单元格的行名和列名
因此，如果我有一个如下所示的数据框: A B C rowname1 4.5 4 3.2 rowname2 3 23
elasticsearch - 使用Solr或Elasticsearch通过大型OR查询子句进行搜索/检索
我有一个汽车模型的搜索数据库:“日产Gtr”，“Huynday Elantra”，“Honda Accord”等。现在我还有一个用户列表和他们喜欢的汽车类型 user1喜欢:carId:1234，c
java - 检索 "To"中的邮件ID并与javamail中的用户输入进行比较
我正在使用 Javamail 来获取一些电子邮件数据。我将用户输入作为电子邮件 ID、imap 地址和密码并连接到 imap。然后我监视收件箱的电子邮件并查明此人是否在“收件人”或“抄送”中。 Ema
检索 R 中的最佳簇数
我有一些数据，我想根据差距统计来评估最佳簇数。我阅读了 gap statistic 上的页面在 r 中给出了以下示例: gs.pam.RU Number of clusters (method '
JAVA - 检索/存储用户名和密码到服务器的安全方法？
我有一个用户名和密码组合，我将使用它通过 java 代码访问安全服务器。我的想法是: 在外部存储加密凭据执行时提示用户输入解密密码在使用前将解密的凭据直接存储在字符数组中使用凭据连接到数据库
java - Firebase 检索
这是 Firebase 数据:[Firebase 数据][1] 我必须从员工那里检索所有字段并将其存储在一个数组中。现在数据更改 toast 消息即将到来，但已经很晚了。 Firebase.setA
iOS 检索 valueForKey？
我是 iOS 的新手，正在开发一个基本的应用程序，它目前正在使用 SSKeychain 和 AFNetworking 与 API 进行交互。当您使用我检索的应用程序登录并在我的 CredentialS
python - 检索/打印执行上下文
编辑:这个问题已经在 apphacker 和 ConcernedOfTunbridgeWells 的帮助下得到解决。我已更新代码以反射(reflect)我将使用的解决方案。我目前正在编写一个群体智能
c - 检索/比较文件中的字符串与用户文本
我是 C 的新手，我想编写一个程序来检查用户输入的单词是否合法。我已经在 stackoverflow 上搜索了建议，但很多都是针对特定情况的。请在我被激怒之前，我知道这个语法不正确，但正在寻找一些关于
c# - 检索/设置密码和其他敏感数据的安全程序
我相信你们中的一些人编写过 C# 类，这些类必须从数据库设置密码/从数据库获取密码。我假设敏感细节不会以明文形式显示。处理此类数据的推荐程序是什么？检索到的文本是否加密？您是否将 pws 存储在加密
Python 检索 RUID？
我在 linux 上使用 2.7 之前的 python 版本，想知道如何检索 RUID？ 2.7 及更高版本从 os 包中获得了 getresuid，但我似乎找不到 2.6 的等效项最佳答案您可以
Android LRUCache 检索
我已经在 Android 中实现了一个存储对象的标准 LRUCache。每个键都是与存储的对象关联的唯一 ObjectId。我的问题是从缓存中检索对象的唯一方法是通过 ObjectId(无迭代器)。实
c# - 检索 *** 的包元数据时出错
这已经被问过很多次了。解决方案(对我有用)是从 packages.config 文件(这就足够了)和 packages 文件夹中删除 *** 包。这对我来说是一个糟糕的解决方案，因为每次我想安装一些
python - 检索 #{ } 中的文本
我有以下文字: #{king} for a ##{day}, ##{fool} for a #{lifetime} 以及以下(损坏的)正则表达式: [^#]#{[a-z]+} 我想匹配所有#{word
.net - 检索/存储数百万个小型二进制对象的最快方法
我正在寻找一种快速(如高性能，而不是快速修复)解决方案来持久化和检索数千万个小型(大约 1k)二进制对象。每个对象都应该有一个用于检索的唯一 ID(最好是 GUID 或 SHA)。额外的要求是它应该可
chisel - 检索 RegInit 的重置值
有没有办法获取 RegInit 的重置值？通过探测产生的类型的成员？我可以看到 RegInit 将返回类型(例如 UInt )。例如，我将有一个寄存器，我想通过 regmap 对其进行控制。 val
Laravel:检索 JSON 数组中的值计数
Iv 目前接手了一个项目，其中开发人员在某些表的 json 数组列中存储了 has many 关系。产品表 ---------------------------- id | product | c
git - 检索 Git 推送历史？
Git 会在任何地方记录推送到远程的历史吗？我注意到我们能够在 Microsoft VSTS 中查看 Git 存储库的推送历史记录以及每次推送的相关提交。它甚至显示旧的、过时的提交，由于后来的强制推

首页

博学

6Ren·AI

商城

java - 当使用来自 Oracle 的 Java 7 时，File.list() 在 Mac OS X 上错误地检索具有非 ASCII 字符的文件名