gpt4 book ai didi

php - 使用正则表达式将字符串拆分成句子

转载 作者:IT王子 更新时间:2023-10-28 23:47:55 26 4
gpt4 key购买 nike

我在 $sentences 中存储了随机文本。使用正则表达式,我想将文本拆分成句子,请参阅:

function splitSentences($text) {
$re = '/ # Split sentences on whitespace between them.
(?<= # Begin positive lookbehind.
[.!?] # Either an end of sentence punct,
| [.!?][\'"] # or end of sentence punct and quote.
) # End positive lookbehind.
(?<! # Begin negative lookbehind.
Mr\. # Skip either "Mr."
| Mrs\. # or "Mrs.",
| T\.V\.A\. # or "T.V.A.",
# or... (you get the idea).
) # End negative lookbehind.
\s+ # Split on whitespace between sentences.
/ix';

$sentences = preg_split($re, $text, -1, PREG_SPLIT_NO_EMPTY);
return $sentences;
}

$sentences = splitSentences($sentences);

print_r($sentences);

它工作正常。

但是,如果有unicode字符,它不会拆分成句子:

$sentences = 'Entertainment media properties. Fairy Tail and Tokyo Ghoul.';

或者这个场景:

$sentences = "Entertainment media properties.&Acirc;&nbsp; Fairy Tail and Tokyo Ghoul.";

当文本中存在 unicode 字符时,我该怎么做才能使其正常工作?

这是一个 ideone用于测试。

赏金信息

我正在寻找一个完整的解决方案。在发布答案之前,请阅读我与 WiktorStribiżew 的评论线程,以获取有关此问题的更多相关信息。

最佳答案

正如所料,任何类型的自然语言处理都不是一项微不足道的任务。原因是它们是进化系统。没有一个人坐下来思考哪些是好主意,哪些不是。每条规则都有 20-40% 的异常(exception)情况。话虽如此,可以执行您的出价的单个正则表达式的复杂性将超出图表。不过,以下解决方案主要依赖于正则表达式。


  • 想法是逐渐浏览文本
  • 在任何给定时间,文本 的当前 block 将包含在两个不同的部分中。一个是句子边界之前的候选子串,另一个是之后
  • 前 10 个正则表达式对检测看起来像句子边界但实际上不是的位置。在这种情况下,beforeafter 会在不注册新句子的情况下被推进。
  • 如果这些对都不匹配,将尝试与最后 3 对进行匹配,可能会检测边界。

至于这些正则表达式是从哪里来的? - 我翻译了this Ruby library , 这是根据 this paper 生成的.如果你真的想了解它们,除了阅读论文别无选择。

就准确性而言 - 我鼓励您使用不同的文本进行测试。经过一些实验,我感到非常惊喜。

就性能而言 - 正则表达式应该是高性能的,因为它们都具有 \A\Z anchor ,几乎没有重复量词,并且在有的地方——不能有任何回溯。不过,正则表达式就是正则表达式。如果您打算在大量文本上使用这种紧密循环,则必须进行一些基准测试。


强制免责声明:请原谅我生疏的 php 技能。下面的代码可能不是最惯用的 php,但它应该足够清晰,可以理解要点。


function sentence_split($text) {
$before_regexes = array('/(?:(?:[\'\"„][\.!?…][\'\"”]\s)|(?:[^\.]\s[A-Z]\.\s)|(?:\b(?:St|Gen|Hon|Prof|Dr|Mr|Ms|Mrs|[JS]r|Col|Maj|Brig|Sgt|Capt|Cmnd|Sen|Rev|Rep|Revd)\.\s)|(?:\b(?:St|Gen|Hon|Prof|Dr|Mr|Ms|Mrs|[JS]r|Col|Maj|Brig|Sgt|Capt|Cmnd|Sen|Rev|Rep|Revd)\.\s[A-Z]\.\s)|(?:\bApr\.\s)|(?:\bAug\.\s)|(?:\bBros\.\s)|(?:\bCo\.\s)|(?:\bCorp\.\s)|(?:\bDec\.\s)|(?:\bDist\.\s)|(?:\bFeb\.\s)|(?:\bInc\.\s)|(?:\bJan\.\s)|(?:\bJul\.\s)|(?:\bJun\.\s)|(?:\bMar\.\s)|(?:\bNov\.\s)|(?:\bOct\.\s)|(?:\bPh\.?D\.\s)|(?:\bSept?\.\s)|(?:\b\p{Lu}\.\p{Lu}\.\s)|(?:\b\p{Lu}\.\s\p{Lu}\.\s)|(?:\bcf\.\s)|(?:\be\.g\.\s)|(?:\besp\.\s)|(?:\bet\b\s\bal\.\s)|(?:\bvs\.\s)|(?:\p{Ps}[!?]+\p{Pe} ))\Z/su',
'/(?:(?:[\.\s]\p{L}{1,2}\.\s))\Z/su',
'/(?:(?:[\[\(]*\.\.\.[\]\)]* ))\Z/su',
'/(?:(?:\b(?:pp|[Vv]iz|i\.?\s*e|[Vvol]|[Rr]col|maj|Lt|[Ff]ig|[Ff]igs|[Vv]iz|[Vv]ols|[Aa]pprox|[Ii]ncl|Pres|[Dd]ept|min|max|[Gg]ovt|lb|ft|c\.?\s*f|vs)\.\s))\Z/su',
'/(?:(?:\b[Ee]tc\.\s))\Z/su',
'/(?:(?:[\.!?…]+\p{Pe} )|(?:[\[\(]*…[\]\)]* ))\Z/su',
'/(?:(?:\b\p{L}\.))\Z/su',
'/(?:(?:\b\p{L}\.\s))\Z/su',
'/(?:(?:\b[Ff]igs?\.\s)|(?:\b[nN]o\.\s))\Z/su',
'/(?:(?:[\"”\']\s*))\Z/su',
'/(?:(?:[\.!?…][\x{00BB}\x{2019}\x{201D}\x{203A}\"\'\p{Pe}\x{0002}]*\s)|(?:\r?\n))\Z/su',
'/(?:(?:[\.!?…][\'\"\x{00BB}\x{2019}\x{201D}\x{203A}\p{Pe}\x{0002}]*))\Z/su',
'/(?:(?:\s\p{L}[\.!?…]\s))\Z/su');
$after_regexes = array('/\A(?:)/su',
'/\A(?:[\p{N}\p{Ll}])/su',
'/\A(?:[^\p{Lu}])/su',
'/\A(?:[^\p{Lu}]|I)/su',
'/\A(?:[^p{Lu}])/su',
'/\A(?:\p{Ll})/su',
'/\A(?:\p{L}\.)/su',
'/\A(?:\p{L}\.\s)/su',
'/\A(?:\p{N})/su',
'/\A(?:\s*\p{Ll})/su',
'/\A(?:)/su',
'/\A(?:\p{Lu}[^\p{Lu}])/su',
'/\A(?:\p{Lu}\p{Ll})/su');
$is_sentence_boundary = array(false, false, false, false, false, false, false, false, false, false, true, true, true);
$count = 13;

$sentences = array();
$sentence = '';
$before = '';
$after = substr($text, 0, 10);
$text = substr($text, 10);

while($text != '') {
for($i = 0; $i < $count; $i++) {
if(preg_match($before_regexes[$i], $before) && preg_match($after_regexes[$i], $after)) {
if($is_sentence_boundary[$i]) {
array_push($sentences, $sentence);
$sentence = '';
}
break;
}
}

$first_from_text = $text[0];
$text = substr($text, 1);
$first_from_after = $after[0];
$after = substr($after, 1);
$before .= $first_from_after;
$sentence .= $first_from_after;
$after .= $first_from_text;
}

if($sentence != '' && $after != '') {
array_push($sentences, $sentence.$after);
}

return $sentences;
}

$text = "Mr. Entertainment media properties. Fairy Tail 3.5 and Tokyo Ghoul.";
print_r(sentence_split($text));

关于php - 使用正则表达式将字符串拆分成句子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34881790/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com