- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
不幸的是,这个问题遇到了两个问题:文本编码和 RTF。但它就在这里。
我正在开发一个 NLP 文本管道,我们需要将 RTF 转换为纯文本,换句话说,我们需要删除 RTF 控制字符并保持文本内容不变。我们正在用 python 构建管道,它有几个要求阻止我们在生产中使用 Apache Tikka 之类的东西。
我知道如果文档作者键入了非 ascii 字符,RTF 可以包含十六进制值,例如 \'a9
。我还知道文档中的第一个控制字符序列指定如何解码这些十六进制值,例如\ansicpg1252
。例如,在本例中,文档开头出现 \ansicpg1252
意味着 \'a9
应解释为 unicode 代码点 00A9 (COPYRIGHT SIGN )
按照the windows-1252 encoding .
我遇到了一个 RTF 文档,其第一组控制字符中包含 \ansicpg1252
,但是文档中的多个位置出现了以下十六进制文字:\'81\' aa
。这很令人困惑,因为 0x81
在 windows-1252
编码中未定义。我认为它可能是 utf-8,但它也没有在 utf-8 中定义。
WordPad.exe 用这个字符表示这两个字节:↑
Apache Tikka 使用相同的字符,↑
这个字符对应于unicode代码点2191(向上箭头)
,事实证明我们的神秘字节0x81AA
是使用Windows Code Page 932 encoding ,其中包含日语字符。
作为引用,RTF 文档中这两个字节的完整上下文是
\plain\f1\fs20 \'81\'aa\plain\f0\fs20
并且文档在 \fonttbl
组中包含此条目:
{\f1\fmodern\fcharset128\fprq1 MS Mincho;}
据我所知,这意味着 \f1
之后的任何文本都应该使用 MS Mincho
字体呈现,这是有道理的,因为 MS Mincho
包含日语字形。但是 RTF 解析器如何知道应该使用 Windows Code Page 932
而不是文件第一行中指定的 ansicpg1252
来解码 0x81AA
?我是否需要知道某些字体暗示某些编码?
我最好的猜测是它与 \fonttbl
条目中显示 \fcharset128
的部分有关,但我不确定。
最佳答案
发表评论后,我做了更多挖掘......
fcharset
参数来自一组固定的值,这些值映射到所使用的编码。这是一个例子:
根据内存,我认为这些内容是我从 Microsoft 的 RTF 规范文档 ( https://www.microsoft.com/en-us/download/details.aspx?id=10725 )
关于python - 如何正确解码 RTF 中的十六进制值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54698294/
我有一个消息 static int[] message = { 0x01, 0x10, 0x00, 0x01, // port addres 01 - 08
如何将十进制转换为以下格式的十六进制(至少两位,零填充,不带 0x 前缀)? 输入:255 输出:ff 输入:2 输出:02 我尝试了 hex(int)[2:] 但它似乎显示了第一个示例而不是第二个示
这个问题已经有答案了: 已关闭12 年前。 Possible Duplicate: Large numbers in Pascal (Delphi) 我正在尝试将 66 位值转换为十进制。 我注意到d
给定一个十进制数字列表,如何将每个数字转换为其等效的十六进制值,反之亦然? 例如: (convert2hex 255 64 64); ->(FF 40 40) (convert2dec FF 40 4
var color = Math.floor(Math.random() * 16777215).toString(16); var hex = Number.parseInt(col
我一直被教导 0-9 代表 0 到 9 的值,A、B、C、D、E、F 代表 10-15。 我看到这种格式 0x00000000,它不适合十六进制模式。有没有导游或导师可以解释一下? 我在谷歌上搜索了十
我目前正尝试像十六进制编辑器一样将文件读取为十六进制值。为了解释这个问题,让我们假设我有一个test.txt,里面有一个简单的“Hello world”。我正在尝试使用接近以下代码的程序以十六进制形式
我正在尝试获取元素背景颜色 $(document).ready(function(){ $.each('.log-widget',function(){ console.log($(t
0x40130020的十六进制值是 2.296883 的浮点值, 使用本网站 http://gregstoll.dyndns.org/~gregstoll/floattohex/ .这如何实现到 Lu
就目前情况而言,这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放,vis
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
谁能解释一下我们如何计算十六进制浮点常量的值。我在看书,发现0x0.3p10代表值192。 最佳答案 指数仍以十进制表示,但底数为二,尾数为十六进制。 所以 0.3P10 是 (3 × 16−1) ×
我正在尝试创建一个标签云,需要帮助来创建一个函数来计算应用于每个标签链接所需的颜色。 我有 3 个变量: 单个标签重要性(从 0.1 到 1) 最大(最重要)的标签颜色(十六进制代码,例如“fff00
大家好,我想发送尽可能短的字符串/值。如果我有以下内容 1)l23k43i221j44h55uui6n433bb4 2)124987359824369785493584379 3)kla^askdja
我知道你会写... background-color: #ff0000; ...如果你想要红色的东西。 你可以写... background-color: rgba(255, 0, 0, 0.5);
我有一些传递地理位置坐标的二进制数据流 - 纬度和经度。我需要找到它们编码的方法。 4adac812 = 74°26.2851' = 74.438085 2b6059f9 = 43°0.2763'
我想从 my_table 中选择 family,其中 family LIKE '%HEX(9D)' 家庭十六进制格式以 9D 十六进制结尾 我将excel文件转换为sqlite数据库但是 我的一些数据
我有一组二进制配置文件,每个文件有三个版本——每个文件的原始版本和两个不同修改的版本。我需要能够同时看到两个版本和原始版本之间的差异。 我需要的是一个二进制文件的三向差异工具。通过相当费力的谷歌搜索,
我正在尝试将(可变长度)十六进制字符串转换为带符号整数(我需要正值或负值)。 [Int16] [int 32]和[int64] 似乎可以在2,4+字节长的十六进制字符串上正常工作,但我在使用3个字节的
如何将十六进制的 unicode 写入 Facebook“您在想什么”框? 我尝试过写: \u00B9 "\u00B9" ¹ "¹" 到目前为止没有任何效果 (让我补充一下,我是在 M
我是一名优秀的程序员,十分优秀!