- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
{ it("should spl-6ren">
我有以下用于拆分 unicoded 单词的测试用例,但不知道如何在 javascript 中执行。
describe("garden: utils", () => {
it("should split correctly", () => {
assert.deepEqual(segmentation('Hockey is a popular sport in Canada.'), [
'Hockey', 'is', 'a', 'popular', 'sport', 'in', 'Canada', '.'
]);
assert.deepEqual(segmentation('How many provinces are there in Canada?'), [
'How', 'many', 'provinces', 'are', 'there', 'in', 'Canada', '?'
]);
assert.deepEqual(segmentation('The forest is on fire!'), [
'The', 'forest', 'is', 'on', 'fire', '!'
]);
assert.deepEqual(segmentation('Emily Carr, who was born in 1871, was a great painter.'), [
'Emily', 'Carr', ',', 'who', 'was', 'born', 'in', '1871', ',', 'was', 'a', 'great', 'painter', '.'
]);
assert.deepEqual(segmentation('This is David\'s computer.'), [
'This', 'is', 'David', '\'', 's', 'computer', '.'
]);
assert.deepEqual(segmentation('The prime minister said, "We will win the election."'), [
'The', 'prime', 'minister', 'said', ',', '"', 'We', 'will', 'win', 'the', 'election', '.', '"'
]);
assert.deepEqual(segmentation('There are three positions in hockey: goalie, defence, and forward.'), [
'There', 'are', 'three', 'positions', 'in', 'hockey', ':', 'goalie', ',', 'defence', ',', 'and', 'forward', '.'
]);
assert.deepEqual(segmentation('The festival is very popular; people from all over the world visit each year.'), [
'The', 'festival', 'is', 'very', 'popular', ';', 'people', 'from', 'all', 'over', 'the', 'world',
'visit', 'each', 'year', '.'
]);
assert.deepEqual(segmentation('Mild, wet, and cloudy - these are the characteristics of weather in Vancouver.'), [
'Mild', ',', 'wet', ',', 'and', 'cloudy', '-', 'these', 'are', 'the', 'characteristics', 'of', 'weather',
'in', 'Vancouver', '.'
]);
assert.deepEqual(segmentation('sweet-smelling'), [
'sweet', '-', 'smelling'
]);
});
it("should not split unicoded words", () => {
assert.deepEqual(segmentation('hacer a propósito'), [
'hacer', 'a', 'propósito'
]);
assert.deepEqual(segmentation('nhà em có con mèo'), [
'nhà', 'em', 'có', 'con', 'mèo'
]);
});
it("should group periods", () => {
assert.deepEqual(segmentation('So are ... the fishes.'), [
'So', 'are', '...', 'the', 'fishes', '.'
]);
assert.deepEqual(segmentation('So are ...... the fishes.'), [
'So', 'are', '......', 'the', 'fishes', '.'
]);
assert.deepEqual(segmentation('arriba arriba ja....'), [
'arriba', 'arriba', 'ja', '....'
]);
});
});
这是 python 中的等效表达式:
class Segmentation(BaseNLPProcessor):
pattern = re.compile('((?u)\w+|\.{2,}|[%s])' % string.punctuation)
@classmethod
def ignore_value(cls, value):
# type: (str) -> bool
return negate(compose(is_empty, string.strip))(value)
def split(self):
# type: () -> List[str]
return filter(self.ignore_value, self.pattern.split(self.value()))
我想在 python 中为 javascript 编写一个等效函数,以按统一编码的单词和标点符号拆分,按多个点分组 ...
Segmentation("Hockey is a popular sport in Canada.").split()
最佳答案
相当复杂,因为在 JavaScript RegExp 中没有负面的后视断言,而且 Unicode 支持还不是官方的(目前仅在 Firefox 中通过标志支持)。这使用库 (XRegExp) 来处理 unicode 类。如果您需要完整的正常正则表达式,它很大。只需评论并告诉我,我将更新答案以使用包含 Unicode 范围的展开的普通 RegExp 语句。
const rxLetterToOther = XRegExp('(\\p{L})((?!\\s)\\P{L})','g');
const rxOtherToLetter = XRegExp('((?!\\s)\\P{L})(\\p{L})','g');
const rxNumberToOther = XRegExp('(\\p{N})((?!\\s)\\P{N})','g');
const rxOtherToNumber = XRegExp('((?!\\s)\\P{N})(\\p{N})','g');
const rxPuctToPunct = XRegExp('(\\p{P})(\\p{P})','g');
const rxSep = XRegExp('\\s+','g');
function segmentation(s) {
return s
.replace(rxLetterToOther, '$1 $2')
.replace(rxOtherToLetter, '$1 $2')
.replace(rxNumberToOther, '$1 $2')
.replace(rxOtherToNumber, '$1 $2')
.replace(rxPuctToPunct, '$1 $2')
.split(rxSep);
}
Here it is passing all the test cases!
window.onbeforeunload = "";
* { margin: 0; padding: 0; border: 0; overflow: hidden; }
object { width: 100%; height: 100%; width: 100vw; height: 100vh; }
<object data="https://fiddle.jshell.net/a3tf68ae/14/show/" />
编辑:更新了测试用例以在测试结果下方打印巨大的 RegExp 源。运行代码片段以查看嵌入式测试用例。
关于带有 unicode 和标点符号的 Javascript 正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39694155/
我想使用 li 和 ul 制作一个多级下拉列表,以便显示我博客中按年和月排序的所有文章。我希望我的下拉菜单看起来像 Google Blogspot 下拉菜单: 这是我的 CSS 和 HTML 代码 u
我在 Win 7 64 机器上将 CodeBlocks 与 gcc 4.7.2 和 gmp 5.0.5 结合使用。开始使用 gmpxx 后,我看到一个奇怪的段错误,它不会出现在 +、- 等运算符中,但
我正在使用 tern 为使用 CodeMirror 运行的窗口提供一些增强的智能感知,它工作正常,但我遇到了一个问题,我想添加一些自定义“types”,可以这么说,这样下拉列表中它们旁边就有图标了。我
我正在尝试让我的 PC 成为 Android 2.3.4 设备的 USB 主机,以便能够在不需要实际“附件”的情况下开发 API。为此,我需要将 PC 设置为 USB 主机和“设备”(在我的例子中是运
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 9
我在设置服务器方面几乎是个新手,但遇到了一个问题。我有一个 Ubuntu 16.04 VPS 并安装了 Apache2 和 Tomcat7。我正在为 SSL 使用 LetsEncrypt 和 Cert
我在一个基于谷歌地图的项目上工作了超过 6 个月。我使用的是 Google Maps API V1 及其开发人员 API key 。当我尝试发布应用程序时,我了解到 Google API V1 已被弃
我是 Python 的新手,所以如果我对一些简单的事情感到困惑,请原谅。 我有一个这样的对象: class myObject(object): def __init__(self):
这个问题已经有答案了: How can I access object properties containing special characters? (2 个回答) 已关闭 9 年前。 我正在尝
我有下面的 CSS。我想要的是一种流体/液体(因为缺乏正确的术语)css。我正在为移动设备开发,当我改变模式时 从纵向 View 到陆地 View ,我希望它流畅。现在的图像 在陆地 View 中效
我正在尝试使用可以接受参数的缓存属性装饰器。 我查看了这个实现:http://www.daniweb.com/software-development/python/code/217241/a-cac
这个问题在这里已经有了答案: Understanding slicing (36 个答案) 关闭 6 年前。 以a = [1,2,3,4,5]为例。根据我的直觉,我认为 a[::-1] 与 a[0:
mysqldump -t -u root -p mytestdb mytable --where=datetime LIKE '2014-09%' 这就是我正在做的事情,它会返回: mysqldum
我正在制作销售税计算器,除了总支付金额部分外,其他一切都正常。在我的程序中,我希望能够输入一个数字并获得该项目的税额我还希望能够获得支付的总金额,包括交易中的税金。到目前为止,我编写的代码完成了所有这
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许在 Stack Overflow 上提出有关通用计算硬件和软件的问题。您可以编辑问题,使其成为
我是否必须进行任何额外的设置才能让 apache-airflow 在任务失败时向我发送电子邮件。我的配置文件中有以下内容(与默认值保持不变): [email] email_backend = airf
这个问题在这里已经有了答案: What does the $ symbol do in VBA? (5 个回答) 3年前关闭。 使用返回字符串(如 Left)的内置函数有什么区别吗?或使用与 $ 相同
我有一个用VB6编写的应用程序,我需要使用一个用.NET编写的库。有什么方法可以在我的应用程序上使用该库吗? 谢谢 最佳答案 这取决于。您可以控制.NET库吗? 如果是这样,则可以修改您的库,以便可以
当我创建一个以 ^ 开头的类方法时,我尝试调用它,它给了我一个错误。 class C { method ^test () { "Hi" } } dd C.new.test; Too m
我已经使用 bower 安装了 angularjs 和 materialjs。 凉亭安装 Angular Material 并将“ngMaterial”注入(inject)我的应用程序,但出现此错误。
我是一名优秀的程序员,十分优秀!