gpt4 book ai didi

python - 使用机器学习的段落分割

转载 作者:行者123 更新时间:2023-12-04 11:33:18 24 4
gpt4 key购买 nike

我有一个很大的 PDF 格式文档库。这些文件来自不同的来源,没有一种风格。我用 Tika从文档中提取文本,现在我想将文本分割成段落。

我不能使用正则表达式,因为文档没有单一样式:

  • 数量\nl段落之间的变化在 2 和 4 之间。
  • 在某些文档中,单个段落中的行由 2 \nl 分隔。 ,有的带单\nl .

  • 所以我转向机器学习。在(伟大的)Python NLTK 书中, segmentation of sentences 很好地使用了分类。在 '.' 前后使用诸如字符之类的属性使用贝叶斯网络,但没有段落分割。

    所以我的问题是:
  • 有没有另一种方式进行段落分割?
  • 如果我使用机器学习,是否有可用于训练的分段段落的标记数据?
  • 最佳答案

    令人惊讶的是,关于自动检测段落边界这一主题的研究很少。我发现了以下内容,所有这些都很旧:
    斯波莱德和拉帕塔 (2004):Automatic Paragraph Identification: A Study across Languages and Domains
    斯波莱德和拉帕塔 (2005):Broad coverage paragraph segmentation across languages and domains
    Filippova 和 Strube (2006):Using Linguistically Motivated Features for Paragraph Boundary Identification
    根泽尔 (2005) A Paragraph Boundary Detection System

    关于python - 使用机器学习的段落分割,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41801762/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com