Java - OS X - Unicode 损坏的字符串-6ren

Java - OS X - Unicode 损坏的字符串

转载作者：行者123 更新时间：2023-12-02 00:03:17

25

4

我正在 OS X 上使用 Java 平台处理 Unicode 文本文件。当我使用 TextEdit 或 TextWrangler 打开文件时，我看到的不是“Nattvardsgästerna”，而是“Nattvardsgästerna”(这是不正确的)。当我使用 Java io 流打开文件时，我看到相同的错误 String“Nattvardsg sterna”。

当我在电脑上打开该文件时，我看到了正确的字符串。我不知道从哪里开始解决这个问题...这是我的 OS X 设置的问题吗？我应该使用特殊标志打开 Java 流吗？

谢谢。

附注我像这样打开文件: fileReader = new BufferedReader(new FileReader(file));

附注另外，我应该提到，我想将结果输出为 SQL 文本文件，因此操作系统正确区分 ä 非常重要。

最佳答案

InputStream 读取字节(而不是字符)，所以我假设当你说:

When I open the file using java io stream

...您的真正意思是“当我使用 Java Reader 打开文件时”。

编辑:您的评论表明您正在这样做:

new BufferedReader(new FileReader(file));

InputStreamReader 有一个 constructor允许您设置字符编码。如果您不指定，它将使用平台默认值。平台默认值不太可能是 unicode(在我的 Macbook 上，它设置为“US-ASCII”)。

为了设置字符编码，您必须创建中间输入流读取器，而不是让 FileReader 为您完成此操作(因为 FileReader 使用平台默认编码)。

假设文件使用 UTF-8 编码，请使用:

new BufferedReader(new InputStreamReader(new FileInputStream(file), 
                                         Charset.forName("UTF-8")));

或者，您可以通过向 JVM 提供参数来更改平台默认值。您可以查看this answer了解完整的详细信息，但基本思想是设置 file.encoding Java 系统属性。链接的答案提供了几种实现此目的的方法。

进一步编辑:

P.S.S. Also, I should mention that I'd like to output the result as an SQL text file so it is important for the OS to distinguish ä correctly.

操作系统与此无关。文件系统只是将字节打乱。如何解释这些字节完全取决于读取这些文件的应用程序。这个答案告诉你如何让你的 Java 程序正确解释字节。为了使您的数据库能够正确解释字节，您需要配置数据库编码。

关于Java - OS X - Unicode 损坏的字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14408663/

25

4

0

文章推荐： java - 方法调用同一个类中的其他方法: bad design?

文章推荐： Lazarus Pascal 过程的语法规则 "Units"

文章推荐： java - 托马克赫斯特线模。尝试连接到 8080。连接被拒绝

文章推荐： java - 我输入的分数总是返回 0？

c - Posix AIO 损坏/损坏？
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
F# - 损坏 "then"
我目前正在尝试制作一个非常简单的应用程序，它会根据一天中的时间问候。我的代码是: open System let read() = Console.Read() let readLine() = Co
elasticsearch - 损坏/未分配的Elasticsearch索引
我已经运行Elasticsearch服务很长时间了，但是突然遇到了以下情况由以下原因导致:org.elasticsearch.index.translog.TranslogCorruptedExce
browser - Cookie 损坏
我对执行以下操作的 php 重定向脚本有一个奇怪的问题: 在用户的浏览器中植入 Cookie，或者读取现有 Cookie(如果有)。将用户重定向到另一个网址(重定向的网址是原始网址中的参数，例如 h
itext - 表格单元格水平对齐被忽略/损坏
我正在使用 iText 7.0.0(Java 风格)，似乎表格单元格 HorizontalAlignment 被忽略，因为 CENTER 和 RIGHT 都不起作用。你能重现这个吗？ see th
swift - 变量多线程访问 - 损坏
简而言之: 我有一个可以从多个线程访问的计数器变量。尽管我已经实现了多线程读/写保护，但该变量似乎仍然以不一致的方式同时写入，导致计数器结果不正确。深入杂草: 我使用的“for 循环”会在后台触发大
Java:ArrayList 损坏？
我有一个 REST 项目，在访问控制服务类中保存用户的ArrayList。一切都工作正常，直到 REST Web 服务突然抛出 java.util.NoSuchElementException。单步查
正常重启后 MySQL 损坏
已关闭。此问题不符合Stack Overflow guidelines 。它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a software
javascript - 刷新页面时本地存储加载投票(损坏)
当我刷新页面时，我无法显示 voteUp/Down，因为如果我执行 voteUp/Down(+1 或 -1) 并刷新页面，这会再次返回 voteUp/Down (0)。过去我使用 JSON，但社区推荐
c++ - 为什么链表中的数据在嵌套函数中发生更改/损坏？
我正在为离散时间 CPU 调度模拟器编写代码。它只是生成流程并相应地安排它们。我目前正在实现 FCFS 计划。我理解离散时间模拟器的本质，但我在用 C++ 实现时遇到了麻烦。问题出现在handleN
centos - Rpmdb 损坏
尝试使用 yum 部署包时出现错误: 2016-07-07 14:14:31,296 - ERROR - error: rpmdb: BDB0113 Thread/process 6723/1
堆的 C++ 损坏
我有一个简单的同步队列 template class SynchronisedQueue { public: void Enqueue(const T& d
Hadoop 损坏 block
我正在使用 hadoop 0.20.append 和 hbase 0.90.0。我将少量数据上传到 Hbase，然后出于评估目的杀死了 HMaster 和 Namenode。在此之后，我向 Hbase
PHP session 损坏
我使用 symfony 框架 1.4 创建了一个网站。我正在使用 sfguard 进行身份验证。现在，这在 WAMP (windows) 上运行良好。我可以在不同的浏览器上登录多个帐户并使用该网站。
java - HashMap 损坏/性能问题
目前我已经实现了 HashMap private static Map cached = new HashMap(); 和 Item 是一个具有属性的对象 Date expireTime 和 byte
WPF 单向绑定(bind)损坏
我试图将 2 个不同的 WPF 控件绑定(bind)到 ViewModel 中的同一属性，即 CheckBox.IsChecked 和 Expander.IsExpanded。我想要实现的行为是让 C
Gradle processResources 损坏 .jks
我希望这是一个简单的问题，但我没有找到答案。我想让 build.gradle 文件通过替换某些变量来设置我的 Spring Boot 应用程序中的版本。这与广告一样有效: def tokens =
c++ - 库包含 WinRT 损坏
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
c++ - OpenGL 批处理渲染器中的纹理出血/损坏
这个问题在这里已经有了答案: In a fragment shader, why can't I use a flat input integer to index a uniform array o
java - OSM xml 损坏？
我已经下载了 OSM 世界地图。解析时出现异常: osm bound changeset (...) changeset Exception in thread "main" org.xml.sax.

首页

博学

6Ren·AI

商城

Java - OS X - Unicode 损坏的字符串