gpt4 book ai didi

python - 将包含混合字体的Word文档转换为Unicode

转载 作者:行者123 更新时间:2023-12-01 01:22:02 27 4
gpt4 key购买 nike

我有一个包含不同字体和不同语言的Word文档。一个例子是英文文本和相应的古希腊语翻译。对于古希腊语部分,使用了 TrueType 字体 ( https://fonts2u.com/greek-regular.font )。现在这种方法非常不适合共享这些文件,我想将古希腊语部分转换为相应的 unicode 字符。

我尝试使用 python 包 python-docx 来导入文件。虽然成功导入和查看文件内容,但我找不到仅选择古希腊字符并将其转换为相应的 unicode 字符的方法。

我正在考虑使用 TrueType Font 字符映射表并查找这些字符并将其替换为相应的 unicode 字符。然而,查看内容时我无法仅选择古希腊字符。

问:有没有办法使用 VBA、Python 或导出不同编码的文件来将古希腊字符“翻译”为其对应的 unicode 字符?

最佳答案

哇,听起来很尴尬,复合 splinter !

鉴于该字体使用其自己的非标准字符编码定义,您可能会更轻松地使用 XML 解析器直接处理该文件。我这样做主要是因为这是我认为最容易选择文本的相关错误编码部分的方式。

类似于:

  1. 打开文件(Python 中的ElementTree)。请注意,DOCX 文件实际上是一个 ZIP 文件,其中包含名为 word/document.xml 的文件以及其他相关的图像/杂项(视情况而定)
  2. 使用 xpath 选择器获取使用希腊字体的文本的所有实例
  3. 使用重新映射代码从损坏的希腊编码转为使用真正的 Unicode 字符
  4. 保存文件

您想要切换到在标准 unicode 代码点中使用希腊字符的字体,您可以在原始 XML 中执行此操作,或者只是在 Word 中重新打开文件并在各处设置字体

关于python - 将包含混合字体的Word文档转换为Unicode,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53720853/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com