gpt4 book ai didi

fonts - 从基于矢量的字体重建字符

转载 作者:行者123 更新时间:2023-12-01 02:36:30 25 4
gpt4 key购买 nike

我有一系列前 PDF 文档(科学/技术),字符编码为矢量图形而不是字体系列。如何使用开源解决方案将矢量流转换为字符?

我很高兴任何成功解决方案的帐户。这些可能包括:

  • 机器学习发现原始字体家族
  • 将流写入 Canvas 并使用 OCR
  • 基于从笔画重构字符的启发式算法

  • 字符可能相当“简单”(许多是无衬线字体),我很乐意重建为 ANSI(字符 32-127)

    更新:[对于读者的信息;不影响赏金]。
    我一直在从一个例子中提取向量,这些向量由一个勾勒出字形的笔划组成,所以即使是像“I”这样的简单字形也是“空心的”。我怀疑这通常适用于所有矢量字体。我已验证同一字符的多个实例具有相同的内部坐标,这可用于查找和区分字体(微小的差异将显示在小数位)。如果字体精确缩放,并且如果我们有字体的坐标(版权允许),那么查找它们的内部坐标是一种强大的方法。如果有人尝试过,我会很感兴趣。

    最佳答案

    您的问题指出了在未知格式和字体系列的上下文中将矢量编码转换为字符的最成功和最著名的解决方案。事实上,您所缺乏的,以及您所要求的,只是一种将流重新编码为任意(但理想的高)质量水平的解决方案。

    让我们依次探索每种候选方法及其可能性:

  • 机器学习以发现原始字体系列

    This paper更详细地讨论该主题。最常见的技术( reference )是构造一个简单的 support vector machine或执行 Bayesian inference用于确定每个字符的分类。

    您发现使用这些技术的最常见区域是 spam detection ,其中对电子邮件的完整正文进行视觉检查,例如 ASCII 艺术或编码为图像内容的垃圾邮件。用于文档阅读的矢量化分类,在初始通过后就没有那么多了。
  • 将流写入 Canvas 并使用 OCR

    这是支持它的软件的最常见技术,因为最常见的用例是用于目视检查的扫描物理文档。这无法保留用于分类的矢量路径,而是依靠页面上的字形进行字符识别。

    这里有几个免费的解决方案,包括 OCR 4 Linux和现在免费 tesseract-ocr .如需更完整的列表,包括功能比较,请参阅 here .
  • 基于从笔画重构字符的启发式算法

    在大多数情况下,这些源自机器学习技术,并被编码到 OCR 或手写识别软件中。因为任意字符流的字符识别分类问题是inductive in scope ,这些通常仅限于用于支持启发式的特定语言。

    此技术certainly exists .它是 currently in use通过工具如 Evernote ,它允许您免费上传文档(最多一点)并为您执行矢量分析。

  • 由于在已知语言和可能已知的字体系列的上下文中第一种方法的时间消耗,我建议将 (2) 和 (3) 作为您的第一个停靠港。最简单的方法是获取 free Evernote account并上传文档,纯粹是为了查看捕获的内容。

    祝你好运。如果当前的技术水平还不够,你可能有一个有用的角落案例,值得为该领域做出贡献。 :)

    关于fonts - 从基于矢量的字体重建字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9991401/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com