gpt4 book ai didi

Wink Tokenizer JS 的 Python 替代(等效)

转载 作者:行者123 更新时间:2023-12-05 05:48:28 24 4
gpt4 key购买 nike

我有一些 JS 函数可以帮助我使用 Wink Tokenizer 来标记我的字符串。

我正在将一些服务转移到 Python,现在我想获得等效的分词器函数。我研究了很多,似乎 Wink tokenizer 只适用于 JS。我也不太了解 Wink 和其他 Python 分词器(例如 spaCY)之间的细微差别。

基本上我希望能够得到与以下相同的结果:

var tokenizer = require( 'wink-tokenizer' );
// Create it's instance.
var myTokenizer = tokenizer();

// Tokenize a tweet.
var s = '@superman: hit me up on my email r2d2@gmail.com, 2 of us plan party🎉 tom at 3pm:) #fun';
myTokenizer.tokenize( s );

在 Python 上

谁能帮我指出正确的方向,告诉我如何继续复制 Wink 在 Python 上提供的标记化功能?我必须检查哪些参数、配置、正则表达式才能获得等效的行为?

最佳答案

方法有很多种。 Python 拥有丰富的数据科学社区。有很多 NLP 包。以下是对文本进行标记化的易于实现的合理列表:

https://towardsdatascience.com/5-simple-ways-to-tokenize-text-in-python-92c6804edfc4

我个人使用https://github.com/stanfordnlp/stanza

所有这些资源都在 google 的第一页上 "python""tokenization"

关于Wink Tokenizer JS 的 Python 替代(等效),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70806806/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com