gpt4 book ai didi

perl - para 中的拆分句子

转载 作者:行者123 更新时间:2023-12-02 22:26:06 25 4
gpt4 key购买 nike

我想在段落中使用 perl 拆分句子。

现在我使用 Lingua::EN::Sentence 模块,我可以在没有内部的情况下拆分句子

> <em>

标签,但我不能拆分这一段,因为内部有一些标签

脚本:

use strict; use Lingua::EN::Sentence qw( get_sentences add_acronyms );

$line = "En meteen is er iets. Die voorstelling dat hapert";

my $sentences = get_sentences($line); foreach my $sentence
(@$sentences) {
print $sentence."\n"; }

输出:

En meteen is er iets.
Die voorstelling dat hapert




> <p>luk heeft aan zichzelf genoeg, het heeft geen getuigen nodig. Then
> <em class="xix"><span class="emph-xix-brl">anna Karenina</span>.
> </em>Ik zou daar hooguit afkunnen. Hoe meer <em>getuigen hoe<em>
> beter. Het alleen is.</p>

这一段怎么拆分?

最佳答案

尝试使用 HTML::Strip 在拆分之前删除标签。

代码

#! /usr/bin/env perl
use strict;
use warnings;
use HTML::Strip;
use Data::Dumper;

use Lingua::EN::Sentence qw( get_sentences add_acronyms );

my $line = "En meteen is er iets. Die voorstelling dat hapert";
my $paragraph = '<p>luk heeft aan zichzelf genoeg, het heeft geen getuigen nodig. Then <em class="xix"><span class="emph-xix-brl">anna Karenina</span>. </em>Ik zou daar hooguit afkunnen. Hoe meer <em>getuigen hoe<em> beter. Het alleen is.</p>' ;

my $html_strip = HTML::Strip->new();
my $clean_paragraph = $html_strip->parse($paragraph);

my $sentences = get_sentences($clean_paragraph);

print Dumper($sentences);

输出

$VAR1 = [
'luk heeft aan zichzelf genoeg, het heeft geen getuigen nodig.',
'Then anna Karenina . Ik zou daar hooguit afkunnen.',
'Hoe meer getuigen hoe beter.',
'Het alleen is.'
];

关于perl - para 中的拆分句子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12955391/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com