python - 使用 spaCy 为 URL 定制标签和词法

转载作者：太空宇宙更新时间：2023-11-04 08:37:10

26

4

考虑句子

msg = 'I got this URL https://stackoverflow.com/questions/47637005/handmade-estimator-modifies-parameters-in-init/47637293?noredirect=1#comment82268544_47637293 freed'

接下来，我使用开箱即用的英语 spaCy 处理句子:

import spacy
nlp = spacy.load('en')
doc = nlp(msg)

让我们回顾一下输出:[(t, t.lemma_, t.pos_, t.tag_, t.dep_) for t in doc]:

[(I, '-PRON-', 'PRON', 'PRP', 'nsubj'),
 (got, 'get', 'VERB', 'VBD', 'ROOT'),
 (this, 'this', 'DET', 'DT', 'det'),
 (URL, 'url', 'NOUN', 'NN', 'compound'),
 (https://stackoverflow.com/questions/47637005/handmade-estimator-modifies-parameters-in-init/47637293?noredirect=1#comment82268544_47637293,
  'https://stackoverflow.com/questions/47637005/handmade-estimator-modifies-parameters-in-init/47637293?noredirect=1#comment82268544_47637293',
  'NOUN',
  'NN',
  'nsubj'),
 (freed, 'free', 'VERB', 'VBN', 'ccomp')]

我想改进对 URL 片段的处理。特别是，我想:

将其 lemma 设置为 stackoverflow.com
将标签设置为URL

如何使用 spaCy 来实现？我想使用正则表达式(如建议的 here )来确定字符串是否为 URL 并获取域。到目前为止，我没能找到方法。

编辑我想我需要的是自定义组件。但是，似乎没有办法将基于正则表达式(或任何其他)的可调用项放置为 patterns。 .

最佳答案

URL 的自定义正则表达式

您可以使用自定义分词器指定 URL 正则表达式，例如来自 https://spacy.io/usage/linguistic-features#native-tokenizers

import regex as re
from spacy.tokenizer import Tokenizer

prefix_re = re.compile(r'''^[\[\("']''')
suffix_re = re.compile(r'''[\]\)"']$''')
infix_re = re.compile(r'''[-~]''')
simple_url_re = re.compile(r'''^https?://''')

def custom_tokenizer(nlp):
    return Tokenizer(nlp.vocab, prefix_search=prefix_re.search,
                                suffix_search=suffix_re.search,
                                infix_finditer=infix_re.finditer,
                                token_match=simple_url_re.match)

nlp = spacy.load('en')
nlp.tokenizer = custom_tokenizer(nlp)

msg = 'I got this URL https://stackoverflow.com/questions/47637005/handmade-estimator-modifies-parameters-in-init/47637293?noredirect=1#comment82268544_47637293 freed'

for i, token in enumerate(nlp(msg)):
    print(i, ':\t', token)

[输出]:

0 :  I
1 :  got
2 :  this
3 :  URL
4 :  https://stackoverflow.com/questions/47637005/handmade-estimator-modifies-parameters-in-init/47637293?noredirect=1#comment82268544_47637293
5 :  freed

检查token是否为URL

您可以检查 token 是否类似于 URL，例如

for i, token in enumerate(nlp(msg)):
    print(token.like_url, ':\t', token.lemma_)

[输出]:

False :  -PRON-
False :  get
False :  this
False :  url
True :   https://stackoverflow.com/questions/47637005/handmade-estimator-modifies-parameters-in-init/47637293?noredirect=1#comment82268544_47637293
False :  free

如果 LIKE_URL 更改标签

doc = nlp(msg)

for i, token in enumerate(doc):
    if token.like_url:
        token.tag_ = 'URL'

print([token.tag_ for token in doc])

[输出]:

['PRP', 'VBD', 'DT', 'NN', 'URL', 'VBN']

用自定义的词条替换 URL 的词条

使用正则表达式 https://regex101.com/r/KfjQ1G/1 :

doc = nlp(msg)

for i, token in enumerate(doc):
    if re.match(r'(?:http[s]:\/\/)stackoverflow.com.*', token.lemma_):
        token.lemma_ = 'stackoverflow.com'

print([token.lemma_ for token in doc])

[输出]:

['-PRON-', 'get', 'this', 'url', 'stackoverflow.com', 'free']

关于python - 使用 spaCy 为 URL 定制标签和词法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48112057/

26

4

0

文章推荐： python - 我在 Python 3 的字典中调用函数

文章推荐： java - 通过 Fitnesse 测试第三方 API

文章推荐： python - 无效的语法错误python 2.6

javascript - 词法 this 和闭包
我试图了解传递给 setTimeout 的箭头函数如何记住上一个执行上下文中的 this 的值。我知道在执行箭头函数时会使用词法作用域规则查找 this 值。这是否意味着箭头函数关闭变量和 this
javascript - 词法 `this` 和超时
这个问题已经有答案了: How does the "this" keyword in Javascript act within an object literal? [duplicate] (4 个
c++ - 今天的主流编程语言主要使用动态还是静态(词法)作用域？
我已阅读 this问题，我想我已经理解了投票最多的答案，但他说 since basically every programming language in wide use today uses le
macros - 在宏中使用来自外部(词法)环境的变量
如何让这段宏发挥预期的作用？ -- 我想从词法环境中捕获 p 而不必将其作为参数发送给宏。 (define-syntax-rule (fi a b) (if p a b)) ;--->capt
scope - 静态(词法)作用域与动态作用域(伪代码)
Program A() { x, y, z: integer; procedure B() { y: integer; y=0;
java - 在 Java 中手动排序链表(词法)
我正在用 Java 实现自己的链表。节点类只有一个名为“name”的字符串字段和一个名为“link”的节点。现在我有一个测试驱动程序类，它只按顺序插入几个名字。现在，我正在尝试编写一种排序方法来按字母
c# - 是否可以在不编译的情况下调用 C# 词法/语法分析器？
考虑到这个question SO，其中调用了整个 C# 内存中编译器。只有lexical and syntactic analyzing时是必需的:将文本解析为词素流，检查它们并退出。在System
c# - C# 中类型参数的“词法”范围
我有 2 个场景。这失败了: class F { public X X { get; set; } } 错误 CS0102:类型“F” ' 已经包含 ' X 的定义| ' 这个有效: class
javascript - 需要帮助理解 Javascript 中的(词法)变量范围
我有一个用 NodeJS 执行的 .js 文件。这是我的文件的内容: var ctry = "America"; function outer(msg) { console.log(msg +
parsing - 编写 Z80 汇编程序 - 词法 ASM 并使用组合构建解析树？
我对编写汇编程序的概念非常陌生，即使在阅读了大量 Material 之后，我仍然很难理解几个概念。将源文件实际分解为 token 的过程是什么？我相信这个过程称为词法分析，我已经到处搜索有意义的真实
javascript - 在静态(词法)作用域中，变量/声明标识符何时绑定(bind)？
在 static scoping,标识符可以通过分析/解析源代码来确定(与动态作用域不同，动态作用域或多或少需要了解调用者环境)。我的问题是这样的，因为静态作用域只需要解析源代码以了解作用域和标识符
dynamic - Common Lisp 作用域(动态 vs 词法)
编辑:我在第一个答案后更改了示例代码，因为我想出了一个简单的版本来回避相同的问题。我目前正在学习 Common Lisp 的作用域属性。在我认为我有一个坚实的理解之后，我决定编写一些我可以预测结果的
python - 如何在 Python 中静态(词法)绑定(bind)名称？
考虑这段代码: class Bar(object): pass class Foo(object): def bar(self): return Bar() f = Foo() def Bar
javascript - 将 jQuery $(this) 与 ES6 箭头函数结合使用(词法 this 绑定(bind))
将 ES6 箭头函数与词法 this 绑定(bind)结合使用非常棒。但是，我刚才在使用典型的 jQuery 单击绑定(bind)时遇到了一个问题: class Game { foo() {
javascript - 将 jQuery $(this) 与 ES6 箭头函数一起使用(词法 this 绑定(bind))
将 ES6 箭头函数与词法 this 绑定(bind)结合使用非常好。但是，我刚才在将它与典型的 jQuery 点击绑定(bind)一起使用时遇到了一个问题: class Game { foo(

首页

博学

6Ren·AI

商城

python - 使用 spaCy 为 URL 定制标签和词法

URL 的自定义正则表达式

检查token是否为URL

如果 LIKE_URL 更改标签

用自定义的词条替换 URL 的词条