- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试将一段分成几个词。我手边有可爱的 nltk.tokenize.word_tokenize(sent),但是 help(word_tokenize) 说,“这个分词器被设计为一次处理一个句子。”
有谁知道如果在段落中使用它会发生什么情况,即最多 5 个句子?我自己在几个短段落上尝试过,它似乎有效,但这并不是决定性的证据。
最佳答案
nltk.tokenize.word_tokenize(text)
只是一个薄的 wrapper function调用 TreebankWordTokenizer 实例的 tokenize
方法类,它显然使用简单的正则表达式来解析句子。
该类的文档指出:
This tokenizer assumes that the text has already been segmented into sentences. Any periods -- apart from those at the end of a string -- are assumed to be part of the word they are attached to (e.g. for abbreviations, etc), and are not separately tokenized.
标的tokenize
方法本身非常简单:
def tokenize(self, text):
for regexp in self.CONTRACTIONS2:
text = regexp.sub(r'\1 \2', text)
for regexp in self.CONTRACTIONS3:
text = regexp.sub(r'\1 \2 \3', text)
# Separate most punctuation
text = re.sub(r"([^\w\.\'\-\/,&])", r' \1 ', text)
# Separate commas if they're followed by space.
# (E.g., don't separate 2,500)
text = re.sub(r"(,\s)", r' \1', text)
# Separate single quotes if they're followed by a space.
text = re.sub(r"('\s)", r' \1', text)
# Separate periods that come before newline or end of string.
text = re.sub('\. *(\n|$)', ' . ', text)
return text.split()
基本上,该方法通常做的是将位于字符串末尾的句点标记为单独的标记:
>>> nltk.tokenize.word_tokenize("Hello, world.")
['Hello', ',', 'world', '.']
任何落在字符串内的句点都被标记为单词的一部分,假设它是一个缩写:
>>> nltk.tokenize.word_tokenize("Hello, world. How are you?")
['Hello', ',', 'world.', 'How', 'are', 'you', '?']
只要该行为是可以接受的,您就应该没问题。
关于python - 滥用nltk的word_tokenize(sent)的后果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19373296/
我可以同步我的 Gmail 收件箱,但发送的文件夹不起作用。 这是我的 .mbsyncrc IMAPStore martinstabenfeldt-remote Account martins
我正在尝试从 nodeJS 发送电子邮件(使用 nodemailer 库),目前我在整个邮寄过程中遇到了一些超时问题。那不是我需要帮助的问题。我确实需要帮助的问题是,当它到达日志记录部分时,成功将为空
我在 WordPress 模板中使用 Contact Form 7 插件。我创建了表单和相关的 CSS,所以一切正常。当我单击发送按钮并成功发送电子邮件时,我需要执行以下操作。表单应该消失并显示“已发
我正在从辅助角色向服务总线队列发送消息。我注意到一些消息会随机丢失。 当我调试时,我在 Send 方法之后设置了一个断点,并登录到我的 Azure 面板以检查消息队列是否增加。我发现奇怪的是,有时消息
我是网站安全的新手,目前正在尝试深入了解同源策略。虽然在 stackoverflow 和其他地方有关于 SOP 概念的非常好的帖子,但我找不到关于 chrome 和其他浏览器是否允许跨域 XHR po
我正在从官方文档中学习 Solidity,并在我创建简单硬币的练习中进行堆栈: pragma solidity ^0.4.20; // should actually be 0.4.21 con
我们有一个需求,其中服务器需要将数据推送到各个客户端。所以我们继续使用 SSE(服务器发送事件)。我浏览了文档,但仍然不清楚这个概念。我有以下疑问: 场景 1。假设有 10 个客户。所以所有 10 个
我对 javascript/jquery 缺乏经验。我正在阅读 http://api.jquery.com/mouseover/ 的文档其中指出: The mouseover event is sen
所以我理解服务器发送事件的概念( EventSource ): 客户端通过 EventSource 连接到端点 客户端只监听从端点发送的消息 我感到困惑的是它在服务器上的工作方式。我看过不同的例子,但
我看过 here和 there尝试弄清楚服务器发送的事件是在传输级别。我还不确定。 两个消息来源都声称它们“只是 http”。然而,至少有两种方式可以解释这样的陈述。 当我第一次阅读那些文章时,我假设
我正在尝试使用 PHPMailer 在我的网站上创建联系表单。我在设置时遇到一些问题。我正在尝试使用 G-mail 作为我的 smtp 主机。我想知道是否有人可以帮助解决这个问题? 这是我的邮件代码:
我有一个大约 150 封电子邮件的文件夹,全部保存为 HTML 文件(Firefox 扩展),并且我需要捕获始终在“已发送”行中找到的年份;如下图所示。 我尝试使用 RegEx 但失败了;它根本不会打
我正在 Swift 中基于 NSObject 开发自定义类。它是一个状态菜单图标/菜单助手。当我收到在自定义类中单击图标的事件时,我想以 NSButton 允许创建 IBAction 来响应用户单击按
我尝试使用 MPI 对矩阵求和来执行此操作,我不知道为什么,但我无法使用 MPI_Send 发送任何类型的数据,但无论我在尝试什么我会收到一条错误消息吗: Sending 3 rows to task
我正在开发一个简单的收件箱/下午系统,我不明白为什么,但我可以显示已发送消息的显示,我可以显示已发送项目的列表,从收件箱查看下午消息,但不能确定我做错了什么,任何提示表示赞赏.. 这是我的代码:
我正在尝试在内容脚本和扩展程序之间传递消息 这是我在内容脚本中的内容 chrome.runtime.sendMessage({type: "getUrls"}, function(response)
我正在尝试将一段分成几个词。我手边有可爱的 nltk.tokenize.word_tokenize(sent),但是 help(word_tokenize) 说,“这个分词器被设计为一次处理一个句子。
我在从设备读取 SMS 消息时遇到问题。获取 URI content://sms/inbox 的内容提供者时,一切都很好。我可以阅读 person 列以在 people 表中找到外键并最终到达联系人及
我知道这个网站上有类似的问题,我已经尝试了一些建议的解决方案,其中一些对之前提出这个问题的人有效。但是,我仍然收到发送两次而不是一次的相同数据。 这是代码: final ProgressDialog
当做programmatic file upload时使用jQuery-File-Upload plugin启用分块后,我无法发送多个文件。 我调用电话的方式如下: fileUploadWidget.
我是一名优秀的程序员,十分优秀!