- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
似乎很难检测文本中的句子边界。引号如.!?可以用于分隔句子,但不太准确,因为可能存在不明确的单词和引文,例如 U.S.A 或 Prof. 或 Dr. 我正在研究 Tperlregex 库和正则表达式食谱 Jan Goyvaerts但我不知道检测句子的表达式怎么写?
在delphi中使用Tperlregex的相对准确的表达是什么?
谢谢
最佳答案
首先,您可能需要得出自己对“句子”的定义,然后实现该定义。例如,怎么样:
He said: "It's OK!"
是一句话还是两句话?一般性的回答是无关紧要的。决定您是否希望它将其解释为一个或两个句子,然后进行相应操作。
其次,我认为我不会为此使用正则表达式。相反,我会扫描每个字符并尝试检测序列。句点本身可能不足以界定句子,但句点后跟空格或回车符(或字符串结尾)可能可以。这可以立即让您清除 U.S.A(句点后面不跟空格)。
对于像 Prof. 和 Dr. 这样的常见缩写,创建一本字典可能是个好主意 - 也许可以由用户编辑,因为每种语言都有自己的一组常见缩写。
每种语言也有自己的一套标点符号规则,这可能会影响您解释标点符号的方式。例如,英语倾向于在括号内添加句点(像这样),而波兰语则相反(像这样)。同样的差异也适用于双引号、单引号(有些语言根本不使用它们,有时它们与撇号等无法区分)。您的规则很可能必须特定于语言,至少部分如此。
最后,您可能会近似人类界定句子的方式,但总会有一些情况会导致分析失败。例如,假设您有一本可以识别“Prof.”的字典。作为缩写,你打算做什么
Most people called him Professor Jones, but to me he was simply The Prof.
即使后面还有另一个以大写字母开头的句子,仍然无法帮助您知道句子的结尾,因为它也可能是
Most people called him Professor Jones, but to me he was simply Prof. Bill.
关于regex - 如何从输入中获取句子编号?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5733243/
我有一个测试即将进行,我想澄清两个有关参数的问题。 在我的笔记中指出,将参数传递给函数的推荐方法是使用“按引用传递” const type& x; // for "in" parameters
当我通过 OMG 2.5(Beta)推广的 UML 规范阅读以下概念时: in: Indicates that Parameter values are passed in by the caller
我试图在用户按下 Enter 时触发一个函数。我将此输入设置为只读的原因是限制用户在填充值后修改输入中的值。 该值来自将在点击属性中触发的弹出窗口。问题是 keyup.enter 没有触发该输入。 代
我在jQuery中使用模式弹出窗口控件,该弹出窗口具有由jQuery Tokenize输入插件提供动力的输入文本。问题是,当我在模式弹出文本框中键入内容时, token 化插件的搜索结果显示为隐藏在弹
我有一个问题。当我选中复选框时,系统工作正常,总值发生变化,但一旦我修改文本输入,它就会变为 0。我需要将此文本框输入排除在更改值之外。 这是 html: $15000 $
我正在努力让它发挥作用,但还是有些不对劲。 我想用 CSS 设置提交按钮的样式以匹配我已有的按钮。 风格: input[type="button"], input[type="submit"], b
import java.util.*;; public class selection { Scanner in=new Scanner(System.in); private
这可能是一个非常菜鸟的问题。假设我有一个带宽限制为 100MB/s 的网卡,那么输入/输出带宽是否有可能达到该限制 同时 ?或者我会在任何时候遇到这个不等式:in bandwidth + out ba
看着这个问题,Fill immutable map with for loop upon creation ,我很好奇是什么this表示在 Map(1 -> this) . scala> Map(1
我有这样的东西 一个 乙 问? 是或否 数字 数字或零 我想做的是: 如果 B1 = “Y”,则让用户在 B2 中输入一个数字。 如果 B1 = “N”,则将 B2 中的值更改为零,并且不允许用户在
我有一个包含许多列的表,我想添加 input标题单元格内的字段,但我希望输入适合根据正文内容的宽度。 这是没有 input 的样子领域: 这就是 input 的样子领域: 可以看出,像“index”和
关于为 FTP 客户端设置传出和传入文件夹,您遵循哪些最佳实践(如果有)?我们通常使用“outgoing”和“incoming”,但无论你如何表述方向,它都可以有两种解释方式,具体取决于名称相对于哪一
我正在尝试“求解”给定 d 的 Pell 方程:x^2 - d * y^2 = 1,或者至少我想得到最小的 x > 0 来求解方程。到目前为止,一切都很好。这是我的 Haskell 代码 minX :
我是VS Code的新手,可以使用Ctrl + Enter将代码运行到python交互式窗口中。我希望光标自动移动到下一行,因此我可以逐行浏览代码。 能做到吗? 最佳答案 如this blog pos
我正在创建一个 bool 值矩阵/二维数组,并且我想为 dategrid 推断一种不仅仅是“ANY”的类型。 let yearRange = [2000,2001,2002,2003,2004]; l
我有两个排序的列表,例如 a = [1, 4, 7, 8] b = [1, 2, 3, 4, 5, 6] 我想知道a中的每个项目是否在b中。对于上面的示例,我想找到 a_in_b = [True, T
菜鸟警报 这很奇怪 - 当我编写以下代码时,尝试在 AngularJS 中创建自定义指令: myModule.directive('myTab', function(){ console.lo
已关闭。此问题需要 debugging details 。目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and the
假设我正在使用 gdscript 静态类型,并且对于一个函数参数,我事先不知道我会得到什么。这就是 python 中 typing.Any 的作用。如何使用 gdscript 做到这一点? 似乎 Va
我使用 dropzone 上传多个图像,并且工作正常,直到我想为每个图像插入品牌和网址。 我遇到的唯一问题是,当我要从输入字段获取值时,我会从服务器获取来自字段(品牌、网址)的未定义值,但如果我使用静
我是一名优秀的程序员,十分优秀!