gpt4 book ai didi

regex - 将多段文档拆分为段落编号的句子

转载 作者:行者123 更新时间:2023-12-04 23:54:58 26 4
gpt4 key购买 nike

我有一个经过良好解析的多段落文档列表(所有段落以\n\n 分隔,句子以“.”分隔),我想将这些文档拆分成句子,并附有一个数字,表示其中的段落编号文档。例如,(两段)输入是:

First sentence of the 1st paragraph. Second sentence of the 1st paragraph. \n\n 

First sentence of the 2nd paragraph. Second sentence of the 2nd paragraph. \n\n

理想情况下,输出应该是:
1 First sentence of the 1st paragraph. 

1 Second sentence of the 1st paragraph.

2 First sentence of the 2nd paragraph.

2 Second sentence of the 2nd paragraph.

我熟悉 Perl 中的 Lingua::Sentences 包,它可以将文档拆分成句子。但是,它与段落编号不兼容。因此,我想知道是否有其他方法可以实现上述目标(文档中没有缩写)。任何帮助是极大的赞赏。谢谢!

最佳答案

如果你可以依靠期 .作为分隔符,你可以这样做:

perl -00 -nlwe 'print qq($. $_) for split /(?<=\.)/' yourfile.txt

解释:
  • -00将输入记录分隔符设置为空字符串,即段落模式。
  • -l将输出记录分隔符设置为输入记录分隔符,在这种情况下转换为两个换行符。

  • 然后我们简单地使用后视断言分割句点并打印句子,前面是行号。

    关于regex - 将多段文档拆分为段落编号的句子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18174646/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com