language-agnostic - 如何以不支持 utf-8 的格式存储 unicode 数据-6ren

language-agnostic - 如何以不支持 utf-8 的格式存储 unicode 数据

转载作者：行者123 更新时间：2023-12-04 07:44:22

25

4

好的，这是另一个字符编码问题，表明我对 Unicode 的所有事物一无所知。

我正在从 Microsoft Excel 中读取数据 .xls文件，并将其存储在 ESRI shapefile .shp .对于 Excel > 5.0 的版本，excel 文件中的文本存储为 Unicode。但是，Unicode(特别是 UTF-8 support for shapefiles is inconsistent，因此我认为我根本不应该使用它。不过，Shapefile 确实支持老式代码页。

在必须将 Unicode 字符串转换为未知但特定代码页中的字符串的情况下，最佳实践是什么？

据我了解，Unicode 字符串可以包含来自多个“代码页”的字符。因此，我假设我必须以某种方式估计要使用的“最佳”代码页，然后将所有不受支持的字符转换为该代码页中最接近的近似值(或可怕的 ? )。这是通常的方法吗？

我绝对可以使用的不仅仅是系统代码页。因为 .shp文件使用 .dbf文件来存储它们的属性数据，至少是.dbf 指定的所有代码页。应支持格式(请参阅 xBase format description )。支持的代码页是:DOS USA , DOS Multilingual, Windows ANSI, Standard Macintosh , EE MS-DOS , Nordic MS-DOS , Russian MS-DOS , Icelandic MS-DOS , Kamenicky (Czech) MS-DOS , Mazovia (Polish) MS-DOS , Greek MS-DOS (437G) , Turkish MS-DOS , Russian Macintosh , Eastern European Macintosh , Greek Macintosh , Windows EE , Russian Windows , Turkish Windows , Greek Windows
此外，一些应用程序支持使用 *.cpg指定要使用的其他代码页的文件(尽管我了解对 utf-8 的支持，并且我怀疑许多其他代码页是有限的)。

因为我正在尝试开发一个通用工具，所以我无法对 .xls 中的 Unicode 内容做出任何假设。文件。

最佳答案

What is the best practice in a situation where you must convert a Unicode string to a string in an unknown but specific codepage?

取决于文件格式。如果它支持 Unicode“转义序列”，如 XML 的 €或 JSON 的 \u20AC ，然后使用它们，您不会丢失任何信息。如果不是，则需要不同的方法。

I would assume, therefore, that I must somehow estimate the "best" codepage to use,

通常，在非 Unicode 系统上，您会将字符转换为任何默认编码，而不是任意代码页。

编辑 :所以你可以选择代码页:

01h     DOS USA                      code page 437
6Ah     Greek MS-DOS (437G)          code page 737
02h     DOS Multilingual             code page 850
64h     EE MS-DOS                    code page 852
6Bh     Turkish MS-DOS               code page 857
67h     Icelandic MS-DOS             code page 861
65h     Nordic MS-DOS                code page 865
66h     Russian MS-DOS               code page 866
C8h     Windows EE                   code page 1250
C9h     Russian Windows              code page 1251
03h     Windows ANSI                 code page 1252
CBh     Greek Windows                code page 1253
CAh     Turkish Windows              code page 1254
04h     Standard Macintosh           code page 10000
98h     Greek Macintosh              code page 10006
96h     Russian Macintosh            code page 10007
68h     Kamenicky (Czech) MS-DOS
69h     Mazovia (Polish) MS-DOS
97h     Eastern European Macintosh

要选择代码页，我建议:

检查您的数据是否为纯 ASCII。如果是这样，您选择哪个代码页并不重要。

如果不是，请尝试找到一个可以准确表示您的数据的代码页(如果不能，请尽量减少不可表示的字符)。首先尝试代码页 1252，然后是其他 125x 代码页。除非您有方框图字符，否则不要理会 DOS 代码页。

and then convert all non-supported characters into their closest approximation in that codepage (or the dreaded ?). Is this the usual approach?

这是我们在工作中需要将 UTF-8 文件转换为 windows-1252 或 EBCDIC 时采用的方法。我使用 Unidecode 来帮助生成“最接近的近似值”。

但是，我们只替换字母和数字，而不替换标点符号。用“”替换“”会破坏一些文件格式。

关于language-agnostic - 如何以不支持 utf-8 的格式存储 unicode 数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3170183/

25

4

0

文章推荐： sql - ScalaQuery 多个主键和外键

文章推荐：返回 x 天前日期的 Python 函数

文章推荐： .net - ConcurrentBag 中可能存在内存泄漏？

language-agnostic - 移植和迁移在编程上有区别吗？
在嵌入式系统编程的上下文中是否存在普遍差异？最佳答案这些不是正式的术语，所以这是相当主观的。迁移意味着将您的代码库移动到另一个系统(无意返回)。这也可能意味着切换到另一个工具链或编程语言。移植
language-agnostic - 如何用堆栈模拟递归？
听说任何递归算法都可以用栈来表示。最近，我一直在一个可用调用堆栈非常小的环境中编写程序。我需要做一些深度递归，所以我想知道如何重新设计任何递归算法以使用显式堆栈。例如，假设我有这样一个递归函数 f
language-agnostic - 数字是否在所有文本编码中都按顺序表示？
这个问题与语言无关，但受到这些 c/c++ 问题的启发。 How to convert a single char into an int Char to int conversion in C 假设
language-agnostic - 我如何在运行时生成和执行机器代码？
我最接近汇编的是构建我自己的 Java 类库，它加载类文件并允许您创建、编译和反编译类。在努力完成这个项目时，我想知道 Java 虚拟机实际上是如何在 JIT 优化期间在运行时生成 native 机器
language-agnostic - 半字节在编程中的使用
如标题所说的简单问题。我在 StackOverflow(和互联网)上看到了一些关于半字节用例的问题，但我不明白为什么我们需要使用半字节。我的意思是字节是计算中最小的内存单位，因此对它执行操作来操作它的
language-agnostic - 关于在多行条件表达式中放置逻辑运算符的建议
这真是一个详细的格式问题，但我每次都被它绊倒...... 对于多行条件表达式，逻辑运算符的首选位置是什么？备选方案 1:每行末尾的逻辑运算符 if (value1 == comparision1 &
language-agnostic - 哪些图书馆可以正确计算秒数以及哪些日期？
计算“2021-01-01 12:56:23.423 UTC”和“2001-01-01 00:00:00.000 UTC”之间的 SI 秒数” 为例。最佳答案 C++20 可以用下面的语法来完成:
language-agnostic - 函数中的抽象层次
我正在读一本名为“干净的代码”的书，当作者试图讲述我们如何编写一个高效的函数时卡住了。他说，“为了确保我们的函数做”一件事， “我们需要确保我们函数中的语句都处于同一抽象级别”。那么作者究竟想通过抽象
language-agnostic - 让浏览器缓存图片
我的网站上有一张相当大的图片(大约 200kb)。我没有计划在不久的将来改变它。我如何告诉浏览器缓存它？最佳答案设置正确的标题对您有很大帮助。过期时间:2012 年 4 月 15 日星期四 20
language-agnostic - 重构工具的优缺点
一般来说，重构工具的优缺点是什么？最佳答案优势如果工具对您有帮助，您更有可能进行重构。一个工具更有可能在第一次正确地进行“重命名”类型重构。一个工具可以让您在代码库上进行重构，而无需手动进行
language-agnostic - 新程序员的玩具项目
当我第一次开始自学编程时，在完成教程后，我会觉得我仍然无法用语言做任何事情。所以，我环顾四周，想找点事情做。由于我刚刚学习了一些基础知识，因此查找、阅读和添加到一个开源项目中所涉及的工作量似乎是无法克
language-agnostic - 为什么以析取范式表达代码很重要？
在我工作的公司，最近要求所有“高度可见”的 bool 逻辑必须以析取范式表示。例如(尽管这个概念与语言无关)， #if (defined(A) || defined( B )) || (define
language-agnostic - 如何表示魔方
我想知道我们如何在 mathematica 中设计一个魔方。这可能吗？我们如何使用它。我们如何决定立方体的 6 个面上的较小立方体的不同分隔。最佳答案您问的是如何定义数据结构。您的选择是任意的，只
language-agnostic - 系统托盘应用标准
对于具有系统托盘图标的应用程序的行为方式，是否有任何标准？我最近编写了一个应用程序，它大部分时间都位于系统托盘中。我把它交给了一个 friend ，她的第一 react 是双击图标进入主窗口(工作正
language-agnostic - 可分发软件的版权和合理使用
一个商业可分发软件的文本长度和/或音频片段长度是多少才能通过合理使用的阈值并侵犯所包含作品的版权？归属是否可以免除开发者的侵权行为？一个例子是在启动屏幕上使用的小说中的引用。最佳答案不幸的是，没有
language-agnostic - 开发者常用哪些技术来快速建站？
我是一名经验丰富的 C/C++/C#/Objective-C 桌面、Web 和移动程序员，我已经习惯于从头开始构建我的大部分软件。我已经使用 ASP.NET 从头开始构建了我的所有网站。对于我想测
language-agnostic - 用矩阵变换3D向量的方法
我一直在阅读有关使用矩阵转换 Vector3 的内容，并且正在努力深入研究数学并自己编写代码而不是使用现有代码。无论出于何种原因，我的学校类(class)从未包括矩阵，所以我正在填补我的知识空白。谢天
language-agnostic - 递归的相关性
所以我目前正在尝试掌握递归的概念，我理解我遇到的大部分问题，但我觉得它的使用似乎不适用于太多计算问题。不过，这只是一个新手的假设，所以我问，作为程序员，递归有很多实际用途吗？还有，用它可以解决哪些典型
language-agnostic - 规划问题的递归解决方案的最佳方法是什么？
我正在学习递归。我已经使用递归解决了一些其他问题，例如创建二叉树、汉诺塔等。所以，我明白什么是递归，但我发现自己很难规划和实现正确的递归解决方案。是否有任何关于规划、思考或实现问题递归解决方案的一般
language-agnostic - 在虚拟机中运行我的开发工具的建议
每次我需要移动到一台新机器，或者买一台笔记本电脑，或者通过不断的安装和卸载搞砸我的注册表时，我开始变得非常厌烦和厌倦设置我的所有开发工具。这么新的计划。我听说有人虚拟化他们的开发环境，这听起来是个好

首页

博学

6Ren·AI

商城

language-agnostic - 如何以不支持 utf-8 的格式存储 unicode 数据