python - 滥用nltk的word_tokenize(sent)的后果-6ren

python - 滥用nltk的word_tokenize(sent)的后果

转载作者：太空狗更新时间：2023-10-29 22:26:42

30

4

我正在尝试将一段分成几个词。我手边有可爱的 nltk.tokenize.word_tokenize(sent)，但是 help(word_tokenize) 说，“这个分词器被设计为一次处理一个句子。”

有谁知道如果在段落中使用它会发生什么情况，即最多 5 个句子？我自己在几个短段落上尝试过，它似乎有效，但这并不是决定性的证据。

最佳答案

nltk.tokenize.word_tokenize(text) 只是一个薄的 wrapper function调用 TreebankWordTokenizer 实例的 tokenize 方法类，它显然使用简单的正则表达式来解析句子。

该类的文档指出:

This tokenizer assumes that the text has already been segmented into sentences. Any periods -- apart from those at the end of a string -- are assumed to be part of the word they are attached to (e.g. for abbreviations, etc), and are not separately tokenized.

标的tokenize方法本身非常简单:

def tokenize(self, text):
    for regexp in self.CONTRACTIONS2:
        text = regexp.sub(r'\1 \2', text)
    for regexp in self.CONTRACTIONS3:
        text = regexp.sub(r'\1 \2 \3', text)

    # Separate most punctuation
    text = re.sub(r"([^\w\.\'\-\/,&])", r' \1 ', text)

    # Separate commas if they're followed by space.
    # (E.g., don't separate 2,500)
    text = re.sub(r"(,\s)", r' \1', text)

    # Separate single quotes if they're followed by a space.
    text = re.sub(r"('\s)", r' \1', text)

    # Separate periods that come before newline or end of string.
    text = re.sub('\. *(\n|$)', ' . ', text)

    return text.split()

基本上，该方法通常做的是将位于字符串末尾的句点标记为单独的标记:

>>> nltk.tokenize.word_tokenize("Hello, world.")
['Hello', ',', 'world', '.']

任何落在字符串内的句点都被标记为单词的一部分，假设它是一个缩写:

>>> nltk.tokenize.word_tokenize("Hello, world. How are you?") 
['Hello', ',', 'world.', 'How', 'are', 'you', '?']

只要该行为是可以接受的，您就应该没问题。

关于python - 滥用nltk的word_tokenize(sent)的后果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19373296/

30

4

0

文章推荐： python - 无法将 PostgreSQL 文本列转换为 bytea

文章推荐： python - 在二维数组中创建规则网格的 Numpy 例程

文章推荐： python - 如何规范化名称

文章推荐： c# - 使用 OData 补丁的 asp.net mvc web api 部分更新

email - 错误 : channel gmail-sent: slave sent cannot be opened
我可以同步我的 Gmail 收件箱，但发送的文件夹不起作用。这是我的 .mbsyncrc IMAPStore martinstabenfeldt-remote Account martins
javascript - 成功？ 'sent' : 'failed' defaults to 'sent' for success = null. 为什么？
我正在尝试从 nodeJS 发送电子邮件(使用 nodemailer 库)，目前我在整个邮寄过程中遇到了一些超时问题。那不是我需要帮助的问题。我确实需要帮助的问题是，当它到达日志记录部分时，成功将为空
wordpress - 发送成功后如何隐藏联系表并显示 "sent!"
我在 WordPress 模板中使用 Contact Form 7 插件。我创建了表单和相关的 CSS，所以一切正常。当我单击发送按钮并成功发送电子邮件时，我需要执行以下操作。表单应该消失并显示“已发
Azure服务总线队列: Messages are not being sent
我正在从辅助角色向服务总线队列发送消息。我注意到一些消息会随机丢失。当我调试时，我在 Send 方法之后设置了一个断点，并登录到我的 Azure 面板以检查消息队列是否增加。我发现奇怪的是，有时消息
ajax - 浏览器是否允许跨域请求为 "sent"？
我是网站安全的新手，目前正在尝试深入了解同源策略。虽然在 stackoverflow 和其他地方有关于 SOP 概念的非常好的帖子，但我找不到关于 chrome 和其他浏览器是否允许跨域 XHR po
Solidity 语法错误 - SENT
我正在从官方文档中学习 Solidity，并在我创建简单硬币的练习中进行堆栈: pragma solidity ^0.4.20; // should actually be 0.4.21 con
server-sent-events - 服务器发送的事件查询
我们有一个需求，其中服务器需要将数据推送到各个客户端。所以我们继续使用 SSE(服务器发送事件)。我浏览了文档，但仍然不清楚这个概念。我有以下疑问: 场景 1。假设有 10 个客户。所以所有 10 个
JavaScript : "event is sent to an element" -
我对 javascript/jquery 缺乏经验。我正在阅读 http://api.jquery.com/mouseover/ 的文档其中指出: The mouseover event is sen
server-sent-events - 服务器发送的事件实际上是如何工作的？
所以我理解服务器发送事件的概念( EventSource ): 客户端通过 EventSource 连接到端点客户端只监听从端点发送的消息我感到困惑的是它在服务器上的工作方式。我看过不同的例子，但
server-sent-events - 服务器发送的事件是如何实现的？
我看过 here和 there尝试弄清楚服务器发送的事件是在传输级别。我还不确定。两个消息来源都声称它们“只是 http”。然而，至少有两种方式可以解释这样的陈述。当我第一次阅读那些文章时，我假设
PHPMailer 不工作 : Message could not be sent
我正在尝试使用 PHPMailer 在我的网站上创建联系表单。我在设置时遇到一些问题。我正在尝试使用 G-mail 作为我的 smtp 主机。我想知道是否有人可以帮助解决这个问题？这是我的邮件代码:
python - 解析电子邮件中的 "Sent"行
我有一个大约 150 封电子邮件的文件夹，全部保存为 HTML 文件(Firefox 扩展)，并且我需要捕获始终在“已发送”行中找到的年份；如下图所示。我尝试使用 RegEx 但失败了；它根本不会打
swift - 如何从自定义类中提供 "sent action"？
我正在 Swift 中基于 NSObject 开发自定义类。它是一个状态菜单图标/菜单助手。当我收到在自定义类中单击图标的事件时，我想以 NSButton 允许创建 IBAction 来响应用户单击按
C++ MPI : could not sent anything
我尝试使用 MPI 对矩阵求和来执行此操作，我不知道为什么，但我无法使用 MPI_Send 发送任何类型的数据，但无论我在尝试什么我会收到一条错误消息吗: Sending 3 rows to task
php - 不显示 "sent"消息
我正在开发一个简单的收件箱/下午系统，我不明白为什么，但我可以显示已发送消息的显示，我可以显示已发送项目的列表，从收件箱查看下午消息，但不能确定我做错了什么，任何提示表示赞赏.. 这是我的代码:
javascript - Chrome扩展消息传递: response not sent
我正在尝试在内容脚本和扩展程序之间传递消息这是我在内容脚本中的内容 chrome.runtime.sendMessage({type: "getUrls"}, function(response)
python - 滥用nltk的word_tokenize(sent)的后果
我正在尝试将一段分成几个词。我手边有可爱的 nltk.tokenize.word_tokenize(sent)，但是 help(word_tokenize) 说，“这个分词器被设计为一次处理一个句子。
Android短信内容(内容://sms/sent)
我在从设备读取 SMS 消息时遇到问题。获取 URI content://sms/inbox 的内容提供者时，一切都很好。我可以阅读 person 列以在 people 表中找到外键并最终到达联系人及
android - Volley : requests are being sent twice
我知道这个网站上有类似的问题，我已经尝试了一些建议的解决方案，其中一些对之前提出这个问题的人有效。但是，我仍然收到发送两次而不是一次的相同数据。这是代码: final ProgressDialog
jquery - 带分块的编程文件上传 : Only the first file is sent
当做programmatic file upload时使用jQuery-File-Upload plugin启用分块后，我无法发送多个文件。我调用电话的方式如下: fileUploadWidget.

首页

博学

6Ren·AI

商城

python - 滥用nltk的word_tokenize(sent)的后果