gpt4 book ai didi

java - 检查 pdf 提取文本质量的快速且无监督的方法是什么?

转载 作者:搜寻专家 更新时间:2023-11-01 03:14:50 24 4
gpt4 key购买 nike

我正在处理一个相当大的语料库,其中包含数万篇文章。我目前正在使用 PDFBox 提取各种成功,我正在寻找一种方法来以编程方式检查每个文件以查看提取是否成功。我目前正在考虑对它们中的每一个运行拼写检查器,但语言可能不同,我还不确定我正在处理哪些语言。带分数的自然语言检测也可能是一个想法。

哦,任何方法也必须与 Java 兼容,快速且相对快速地集成。

最佳答案

尝试自动学习拼写检查器。这并不像听起来那么可怕:从一本包含您可能遇到的所有单词的大词典开始。这可以来自多种语言。

扫描 PDF 时,允许一定数量的未知单词(比如 5%)。如果这些单词中的任何一个重复的次数足够多(比如 5 次),请将它们添加到字典中。如果 PDF 包含超过 5% 的未知单词,则很可能无法处理。

扫描仪会随着时间的推移学习,让您在必要时减少未知单词的数量。如果这太麻烦了,那么一本非常大的词典也应该能很好地工作。

如果您没有字典,请手动处理几个文档并让扫描仪学习。在十几个文件之后,您的新词典应该足够大以达到合理的水位。

关于java - 检查 pdf 提取文本质量的快速且无监督的方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1453552/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com