gpt4 book ai didi

c++ - 将文本解析成句子?

转载 作者:太空狗 更新时间:2023-10-29 19:50:44 25 4
gpt4 key购买 nike

我正在尝试将 PDF 页面上的文本解析为句子,但这比我预期的要困难得多。有很多特殊情况需要考虑,例如包含句点但不一定结束句子的首字母、小数、引号等。

我很好奇这里是否有人熟悉 C 或 C++ 的 NLP 库,可以帮助我完成这项任务或提供任何建议?

感谢您的帮助。

最佳答案

这是一个称为句子边界消歧的问题。 Wikipedia page因为它列出了一些库,但我不确定是否可以轻松地从 C 调用它们中的任何一个。

你可以找到很多关于句子边界消歧理论的论文。 Unicode 标准,在 Unicode Standard Annex #29 - Unicode Text Segmentation还定义了一个简单的句子边界检测算法。

关于c++ - 将文本解析成句子?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/970487/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com