- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
首先让我说我需要一个仅使用正则表达式的解决方案。
我正在尝试使用第三个程序从 html 文件中提取描述。 此程序是基于 java 的,但我不能以任何方式操纵源代码!。我将正则表达式提交到的程序已经有另一个正则表达式脚本,指定从每个页面上的何处获取描述。如果您在其中定义匹配项,它有一个方便的功能,可以将该信息进一步分解为一个数组。
我想匹配描述中的每个句子,不管它是否是列表项。摆脱标签是理想的选择,因为它们会导致使用 \b
出现问题。指定开始匹配的位置。
起初我以为我可以编写一个正则表达式解决方案来捕获单词边界和句子结束字符之间的所有内容。像这样的 \b([^.!]+)[.!]
然后我注意到一个问题,描述有时会包含列表项的附加部分。更复杂的是,有时列表项的第一部分会加粗或斜体。更罕见的可能是随机 <br>
和 </br>
出于我不明白的原因在那里标记...
这是一篇有趣的文章中对常见布局的示例描述:
Children around the world are constantly exposed to the evil “Dolan”, an evil
duckwho encourages rape, murder, pedophilia, stealing, homosexuality and a range
of other sins. ”Dolan” is considered a “meme”: an image that makes its way
around the internet via social networks such as Myspace, Friendster, or
Wikipedia.
<li>The duck is based on the character “Donald” created by the company Disney.
</li><li><b>Dolan, however</b>, is more overtly satanic and enjoys commit crimes
and offending Christianity. </li><li>He is best known for a series of internet
comics created in the socialist nation of Finland. </li><li><i>Being part of
Scandinavia</i>, the Finnish are clearly followers of Satan and Skrillex. </li>
<li>The comics are written in poor English to distract the viewer from how evil
and offensive they truly are.</li>
我尝试了几种不同的方法,但我仍然是一个正则表达式新手,并且得到了各种无法正常工作的不同返回值。这一个打破了一切,从标签中的任何字母开始:
(?:<li>|<b>|<i>)?\b([^.!<]+)[.!< ][<lbi/ ]
上面的代码给出了一个这样的数组(顺序随机化或者至少以我不理解的方式组织)
i>
Being Part of Scandinavia
i>
b>
Dolan, however
b>
几乎相同的可能会留在一些 html 标签中,我认为这是因为 li>
满足词界要求。 注意:下面代码末尾有一个空格
\b([^.!<]+)[.!]
这给出了这样一个数组
li>The duck is based on the character “Donald”...
li>li>b>Dolan, however/b>, is more overtly satanic...
就像我之前说的那样,我是正则表达式的新手,并且非常确定我使用的前瞻性错误。
请帮我解决一下!我不知道接下来要尝试什么。
PS,文章不是我写的,是从别的网站上复制过来的。不想冒犯
最佳答案
不要理会 \b
,它只会妨碍你。你也不需要环顾四周。以下正则表达式正确匹配示例文本中的所有句子。与@icrf 的正则表达式一样,句子中的任何标记都将保留在那里。摆脱这些需要第二步,我看不出有任何解决办法。
[^\s<>.!?][^<>.!?]*(?:<[^<>]+>[^<>.!?]*)*[.!?]
分解:
[^\s<>.!?]
从下一个不是空格、尖括号或句子标点符号的字符开始匹配。
[^<>.!?]*
继续匹配所需的字符,现在包括空格。
<[^<>]+>
: 如果找到左尖括号,这部分会尝试匹配 HTML 标签。然后它返回匹配非特殊字符与 [^<>.!?]*
.它会继续这样权衡,直到没有更多的标签或非特殊字符可供使用。
最后,[.!?]
匹配句末标点符号。
关于java - 正则表达式忽略 html 标签,但从具有不同结束 anchor 的单词边界开始,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12588254/
我有一个加号/减号按钮,希望用户不能选择超过 20 个但不知道如何让它工作。我尝试使用 min="1"max="5 属性,但它们不起作用。这是我的代码和一个 fiddle 链接。https://jsf
我正在尝试复制顶部底部图,如示例 here但它没有正确渲染(紫色系列有 +ve 和 -ve 值,绿色为负值)留下杂乱的人工制品。我也在努力创建一个玩具示例来复制这个问题,所以我希望尽管我缺乏数据,但有
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 6 年前。 社区去年审查了是
这个问题在这里已经有了答案: Adding two positive integers gives negative answer.Why? (4 个答案) 关闭 5 年前。 我遇到了一个奇怪的问题
有谁知道如何将字符串值类型 -4,5 或 5,4 转换为 double -4.5 或 5.4? 最佳答案 只需使用 Double.parseDouble(Locale, String); 糟糕,我很困
我正在尝试根据 TextBlob 分类插入一个仅包含“正”或“负”字符串的新数据框列:对于我的 df 的第一行,结果是 ( pos , 0.75, 0.2499999999999997)我想要' 正
我对 VBA 非常陌生,无法理解如何在一个循环中完成 2 个任务。我非常感谢您的帮助。 我已经能够根据第 3 列中的数据更改第 2 列中的数值,但我不明白如何将负值的字体更改为红色。 表格的大小每月都
欢迎, 我正在使用 jquery 通过 POST 发送表单。 这就是我获得值(value)的方式。 var mytext = $("#textareaid").val(); var dataStrin
double d = 0; // random decimal value with it's integral part within the range of Int32 and always p
我有这个字符串: var a='abc123#xyz123'; 我想构建 2 个正则表达式替换函数: 1) 用 '*' 替换所有确实有 future '#'的字符(不包括'#') 所以结果应该是这样的
我正在使用 DialogFragment。当用户从 Gmail 平板电脑应用程序的屏幕与下面示例图片中的编辑文本进行交互时,我希望正面和负面按钮保持在键盘上方。 在我的尝试中不起作用,这是我的 Dia
从组装艺术一书中,我复制了这句话: In the two’s complement system, the H.O. bit of a number is a sign bit. If the H.O
是否有更好更优雅的方法来实现下面的简单代码(diffYear、A 和 B 是数字): diffYear = yearA - yearB; if (diffYear == 0) { A = B
我正在设计一种语言,并尝试确定 true 应该是 0x01 还是 0xFF。显然,所有非零值都将转换为 true,但我正在尝试确定确切的内部表示。 每种选择的优点和缺点是什么? 最佳答案 没关系,只要
在我的 dialogfragment 类的 OnCreateDialog 中,我正在这样做: AlertDialog.Builder builder = new AlertDialog.Builder
这个问题在这里已经有了答案: Resolving ambiguous overload on function pointer and std::function for a lambda usin
我偶然发现了一个奇怪的 NSDecimalNumber 行为:对于某些值,调用 integerValue、longValue、longLongValue 等,返回意想不到的值(value)。示例: l
这个问题在这里已经有了答案: Resolving ambiguous overload on function pointer and std::function for a lambda using
我有这个正则表达式来测试用户输入是否有效: value.length === 0 || value === '-' || (!isNaN(parseFloat(value)) && /^-?\d+\.
我想用高斯混合模型拟合数据集,数据集包含大约 120k 个样本,每个样本有大约 130 个维度。当我使用 matlab 执行此操作时,我运行脚本(簇号为 1000): gm = fitgmdist(d
我是一名优秀的程序员,十分优秀!