python - 使用 unicode 撇号正确标记英语缩写-6ren

python - 使用 unicode 撇号正确标记英语缩写

转载作者：行者123 更新时间：2023-12-04 07:45:20

25

4

如果 unicode apostrophes，您如何修改默认的 spacy (v3.0.5) 标记器以正确拆分英语缩写(不是 ' )被使用。

import spacy

nlp = spacy.load('en_core_web_sm')
apostrophes = ["'",'\u02B9', '\u02BB', '\u02BC', '\u02BD', '\u02C8', '\u02CA', '\u02CB', '\u0060', '\u00B4']
for apo in apostrophes:
    text = f"don{apo}t"
    print([t for t in nlp(text)])
>>> 
 [do, n't]
 [donʹt]
 [donʻt]
 [donʼt]
 [donʽt]
 [donˈt]
 [donˊt]
 [donˋt]
 [don`t]
 [don´t]

所有示例所需的输出为 [do, n't]我最好的猜测是使用所有可能的撇号变体来扩展默认的 tokenizer_exceptions。但这不起作用，因为 Tokenizer 特殊情况不允许修改文本。

import spacy 
from spacy.util import compile_prefix_regex, compile_suffix_regex, compile_infix_regex

nlp = spacy.load('en_core_web_sm')

apostrophes = ['\u02B9', '\u02BB', '\u02BC', '\u02BD', '\u02C8', '\u02CA', '\u02CB', '\u0060', '\u00B4']
default_rules = nlp.Defaults.tokenizer_exceptions
extended_rules = default_rules.copy()
for key, val in default_rules.items():
    if "'" in key:
        for apo in apostrophes:
            extended_rules[key.replace("'", apo)] = val

rules = nlp.Defaults.tokenizer_exceptions
infix_re = compile_infix_regex(nlp.Defaults.infixes)
prefix_re = compile_prefix_regex(nlp.Defaults.prefixes)
suffix_re = compile_suffix_regex(nlp.Defaults.suffixes)

nlp.tokenizer =  spacy.tokenizer.Tokenizer(
        nlp.vocab,
        rules = extended_rules,
        prefix_search=prefix_re.search,
        suffix_search=suffix_re.search,
        infix_finditer=infix_re.finditer,
    )
            
apostrophes = ["'",'\u02B9', '\u02BB', '\u02BC', '\u02BD', '\u02C8', '\u02CA', '\u02CB', '\u0060', '\u00B4']
for apo in apostrophes:
    text = f"don{apo}t"
    print([t for t in nlp(text)])

>>> ValueError: [E997] Tokenizer special cases are not allowed to modify the text. This would map ':`(' to ':'(' given token attributes '[{65: ":'("}]'.

最佳答案

您只需要添加一个异常(exception)而不更改文本。

import spacy 

nlp = spacy.load('en_core_web_sm')

from spacy.attrs import ORTH, NORM
case = [{ORTH: "do"}, {ORTH: "n`t", NORM: "not"}]
tokenizer = nlp.tokenizer
tokenizer.add_special_case("don`t", case)

doc =  nlp("I don`t believe in bugs")

print(list(doc))
# => [I, do, n`t, believe, in, bugs]

如果要更改文本，则应将其作为预处理步骤进行。

关于python - 使用 unicode 撇号正确标记英语缩写，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67229023/

25

4

0

文章推荐： twitter-bootstrap - Bootstrap 3.x + 固定宽度网站

文章推荐： c# - 使用 StringBuilder 以点格式保存 double 值

英语.Net多语言开发中的问题
问题与现象多语言开发是一件成本很高的事情。很多公司会退而求其次选择只开发英文版本的软件分发到不同国家，但这里仍存在不同问题。我们就遇到了这样的问题，参考下面的代码。 CultureInf
MySQL 英语、波兰语和德语排序规则
在我的 codeigniter 项目中，我使用 MySQL 作为数据库。它的排序规则是“latin1_swedish_ci”。现在我需要扩展我的网站，除了“英语”之外还存储“波兰语”、“德语”、“法语
java - 英语 - 莫尔斯翻译器
从摩尔斯语翻译成英语就像一个魅力，但是将一个短语或句子(多个单词用空格分隔)从英语翻译成摩尔斯语只会产生翻译成摩尔斯语的第一个单词。例如，如果我输入“Hello World”，翻译器只会返回 '……
database - 英语、葡萄牙语和西类牙语的国家和国籍列表？
试图在谷歌上搜索一些提供英语、葡萄牙语和西类牙语国家和国籍列表的来源……没有运气。有人知道吗？一个多语言网站的链接，其中包含三种语言的任何这些列表的表格也很棒!! 最佳答案它在 unicode
html - 如何显示合并两种语言的文本(英语+阿拉伯语)
在过去的 15 天或更长时间里，我一直在为一个奇怪的问题而苦苦挣扎。实际上我有一些阿拉伯语文本，但也有一些英文文本。 MY NAME "some arabic text" "some arabic t
excel - 日期格式英语/法语
我有这种日期格式: Mon, Nov 19, 2018 我希望它采用法语短日期格式(DD/MM/YYY) 但我无法用excel的基本日期格式解决它。有任何想法吗？最佳答案您可以使用 MATCH
密码学。英语 "normal text"?
我被要求制作一个软件来加密和解密基于字母 frequencies 的“普通英语”文本。 . 问题是我在哪里可以找到一些与官方频率匹配的文本样本？到目前为止，我已经尝试过 "War and Peace
python - 如何在kivy中制作文件选择器以支持不同语言的文件(英语，希伯来语)
我正在使用 kivy 的文件选择器，当文件夹中有一个带有希伯来语名称的文件时，它会打印出乱码......如果可能的话，我想支持不同的语言。尝试更改文件选择器中的字体名称，对我来说不起作用。你能帮我找出
javascript - 如何在弹出窗口中选择语言(英语/法语)？
Popup Click me to toggle the popup! A Simple Popup! // When the user clicks on div, open the po
python - NLTK - 缺少停用词 - 英语
我刚刚下载了最新的 NLTK 版本及其所有资源。我看到 could 和 would 没有被列为停用词。但是 should 被视为停用词。这是某种已知错误还是...？ In [7]: import
android - 我怎么知道键盘语言？ (英语/法语)
我开发了一个短信发送器应用程序，我想知道用户使用的语言。那么，当用户键入一条消息时，我如何知道他/她使用的语言？最佳答案通过使用获取输入类型管理器: InputMethodManager imm
php - 如何编写正则表达式来匹配阿拉伯语、英语、数字和空格字符？
在 PHP 中使用正则表达式，如何让用户输入阿拉伯语、英语、数字、_、- 或空格。例如，用户可以输入以下字符串: 10-abc 10-米 10-abcmo _abcمن-10 最佳答案要检查您可以
c# - 希伯来语、英语、符号的正则表达式
作为我正在编写的一个小程序的一部分，我需要过滤一个可能是“gibrish”的字符串输入(UTF8 中的任何符号)输入可以是希伯来语和/或英语，但也有所有正常的符号，如:?%$!@'_' 等等... 一
translation - 俄语-英语 Multitran 词典
也许有人知道从中检索翻译的最佳方式是什么。是否有用于阅读 Multitran 词典数据库的图书馆？我的目标是一个简单的程序，它将检索给定的俄语单词的英文翻译。最佳答案也许你可以使用 StarDic
windows - Google Chrome在Windows 10(英语)中使用哪些默认字体？
在 chrome://settings/fonts 什么是标准字体，衬线字体，无衬线字体和固定宽度字体？对于不使用Windows但希望尽可能使用相同(或相似)设置的用户，这是必需的。最佳答案 St
python - NLTK 荷兰语 alpino 至英语
我正在尝试查找四元组英语单词，我尝试更改 alpino，它将荷兰语单词下载为 en 或英语，但它不起作用任何想法？ from nltk.util import ngrams from nltk.cor
java - 我们如何存储任何文本语言(英语、印地语、西类牙语等)并从数据库中检索相同的值
这个问题在这里已经有了答案: UTF-8 all the way through (13 个答案) 关闭 8 年前。我们允许用户在文本字段中输入任何语言，并将该值存储在数据库中，当用户在浏览器中查
ruby-on-rails - “英语”全局变量在 Rails 中不起作用
我正在尝试在 Rails 中使用英语 gem，因此我可以访问 $LAST_MATCH_INFO，$~ 的隐秘版本。然而，尽管需要英语，$LAST_MATCH_INFO 始终是 nil，而 $~ 仍然有
python - (英语、Perl、Python、Ruby)逐个代码片段进行比较？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
user-interface - 英语 UI 术语 : Directory, 还是文件夹？
当您设计应用程序时(假设使用英语)，并要求用户提供目录/文件夹的路径，您是否使用术语目录或文件夹? 其中一个比另一个更容易被理解吗？其中一个比另一个更“正确”吗？最佳答案请注意，它们不是同义词。目

首页

博学

6Ren·AI

商城

python - 使用 unicode 撇号正确标记英语缩写