tokenize - 有没有办法获取 BERT 中生成某个 token 的子字符串的位置？-6ren

tokenize - 有没有办法获取 BERT 中生成某个 token 的子字符串的位置？

转载作者：行者123 更新时间：2023-12-03 08:37:46

29

4

我正在将句子输入 BERT 模型(Hugging Face 库)。这些句子通过预训练的分词器进行分词。我知道您可以使用解码函数从标记返回到字符串。

string = tokenizer.decode(...)

但是，重建并不完美。如果您使用无外壳的预训练模型，大写字母就会丢失。此外，如果分词器将一个单词拆分为 2 个标记，则第二个标记将以“##”开头。例如，单词“coronavirus”被分为 2 个标记:“corona”和“##virus”。

所以我的问题是:有没有办法获取创建每个标记的子字符串的索引？例如，以字符串“东京报告近 370 例新的冠状病毒病例，创下单日新纪录”。第9个token是“virus”对应的token。

['[CLS]', 'tokyo', 'to', 'report', 'nearly', '370', 'new', 'corona', '##virus', 'cases', ',', 'setting', 'new', 'single', '-', 'day', 'record', '[SEP]']

我想要一些东西告诉我标记“##virus”来自原始字符串中的“virus”子字符串，该子字符串位于原始字符串的索引 37 和 41 之间。

sentence = "Tokyo to report nearly 370 new coronavirus cases, setting new single-day record"
print(sentence[37:42]) # --> outputs 'virus

最佳答案

我想更新答案。由于 HuggingFace 引入了他们的(更快)版本的 Rust 编写的快速分词器，因此此任务变得更加容易:

from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased')
sentence = "Tokyo to report nearly 370 new coronavirus cases, setting new single-day record"

encodings = tokenizer(sentence, return_offsets_mapping=True)
for token_id, pos in zip(encodings['input_ids'], encodings['offset_mapping']):
    print(token_id, pos, sentence[pos[0]:pos[1]])



101 (0, 0) 
5522 (0, 5) Tokyo
2000 (6, 8) to
3189 (9, 15) report
3053 (16, 22) nearly
16444 (23, 26) 370
2047 (27, 30) new
21887 (31, 37) corona
23350 (37, 42) virus
3572 (43, 48) cases
1010 (48, 49) ,
4292 (50, 57) setting
2047 (58, 61) new
2309 (62, 68) single
1011 (68, 69) -
2154 (69, 72) day
2501 (73, 79) record
102 (0, 0)

更重要的是，如果您使用单词列表(并设置 is_split_into_words=True )代替常规字符串，那么人们可以轻松地区分每个单词的第一个标记和结果标记(元组的第一个值将为零)，这是 token 分类任务的常见需求。

关于tokenize - 有没有办法获取 BERT 中生成某个 token 的子字符串的位置？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63413414/

29

4

0

文章推荐： angular - 如何在 Angular Material 中启用和禁用滑动切换

文章推荐： Woocommerce - 仅显示循环中的分组产品父级

文章推荐： asp.net - web.config 中与 targetFramework 相关的配置错误

android - 使用刷新 token 在访问 token 过期之前刷新访问 token
我正在开发一个应用程序，它使用 OAuth - 基于 token 的身份验证。考虑到我们拥有访问和刷新 token ，这就是流程的样子。 Api call -> intercepter append
python - 如何取消对 spacy.tokens.token.Token 的标记？
如何取消标记此代码的输出？类(class)核心: def __init__(self, user_input): pos = pop(user_input) subject = ""
kubernetes - kubectl --token=$TOKEN 没有使用 token 的权限运行
当我使用命令 kubectl 时与 --token标记并指定 token ，它仍然使用 kubeconfig 中的管理员凭据文件。这是我做的: NAMESPACE="default" SERVICE
security - 访问 token 和刷新 token 最佳实践？如何实现访问和刷新 token
我正在制作 SPA，并决定使用 JWT 进行身份验证/授权，并且我已经阅读了一些关于 Tokens 与 Cookies 的博客。我了解 cookie 授权的工作原理，并了解基本 token 授权的工作
azure - 请求刷新 token 失败。在 token 存储中找不到刷新 token
我正在尝试从应用服务获取 Google 的刷新 token ，但无法。日志说 2016-11-04T00:04:25 PID[500] Verbose Received request: GET h
java - token 语法错误 "(", ; token ","上的预期语法错误，； token ")"上的预期语法错误，；预期的
我正在开发一个项目，只是为了为 java 开发人员测试 eclipse IDE。我是java新手，所以我想知道为什么它不起作用，因为我已经知道该怎么做了。这是代码: public class ecli
asp.net - token 处理程序无法将 token 转换为 jwt token
我正在尝试使用 JwtSecurityTokenHandler 将 token 字符串转换为 jwt token 。但它出现错误说 IDX12709: CanReadToken() returned
android - Facebook 用户访问 token 与应用程序访问 token 与页面访问 token
我已阅读文档 Authentication (来自 Facebook 的官方)。我仍然不明白 Facebook 提供的这三种访问 token 之间的区别。网站上给出了一些例子，但我还是不太明白。每个
c# - 防伪 token 无法解密 & 防伪cookie token 和表单字段 token 在部署中不匹配
我的部署服务器有时有这个问题，这让我抓狂，因为我无法在本地主机中重现，我已经尝试在我的 web.config 中添加机器 key ，但没有成功远。它只发生在登录页面。我的布局:
c# - 如何在不创建新刷新 token 的情况下使用刷新 token 更新 Owin 访问 token ？
我已经设法获得了一个简单的示例代码，它可以创建一个不记名 token ，还可以通过阅读 stackoverflow 上的其他论坛来通过刷新 token 请求新的不记名 token 。启动类是这样的
php - Google Api，当我有访问 token 和以前的刷新 token 时如何刷新用户 token
如果我有以前的刷新 token 和使用纯 php 的访问 token ，没有 Google Api 库，是否可以刷新 Google Api token ？我在数据库中存储了许多用户刷新和访问 toke
java - token 无效 - 无效 token : Cannot parse referred token string: Invalid gaia_data. Base64 token 上的 AuthSubToken 原型(prototype)
我通过 Java 应用程序使用 Google 电子表格时遇到了问题。我创建了应用程序，该应用程序运行了 1 年多，没有任何问题，我什至在 Create Spreadsheet using Google
Keycloak admin REST API - 使用刷新 token 创建新的访问 token 而不重新创建刷新 token
当我有一个有效的刷新 token 时，我正在尝试使用 Keycloak admin REST API 重新创建访问 token 。我已经通过调用 POST/auth/realms/{realm}/p
wcf - 找不到 'System.IdentityModel.Tokens.UserNameSecurityToken' token 类型的 token 验证器。
我正在尝试让第三方 Java 客户端与我编写的 WCF 服务进行通信。收到消息时出现如下异常: Cannot find a token authenticator for the 'System.I
sql - 解析查询时出错。 [ token 行号=1， token 行偏移量=52， token 错误=)]
在尝试将数据插入到我的 SQl 数据库时，我收到以下错误 System.Data.SqlServerCe.SqlCeException: There was an error parsing the
access-token - JSON Web token (JWT) 相对于数据库 session token 的优势
使用数据库 session token 系统，我可以让用户使用用户名/密码登录，服务器可以生成 token (例如 uuid)并将其存储在数据库中并将该 token 返回给客户端。其上的每个请求都将包
azure - 错误: The received token is of incorrect token type -- What should the token look like?
我最近注册了 Microsoft Azure 并设置了认知服务帐户。使用 Text Translation API Documentation 中的说明我能够使用 interactive online
asp.net - 所提供的防伪 token 验证失败。 cookie token 和请求 token 已交换
我使用 IAntiforgery API 创建了一个 ASP.Net Core 2 应用程序。这提供了一种返回 cookie 的方法。客户端获取该 cookie，并在后续 POST 请求中将该值放
python - 基于 Spacy token 的匹配， token 之间的 token 数量为 'n'
我正在使用 spacy 来匹配某些文本(意大利语)中的特定表达式。我的文本可以多种形式出现，我正在尝试学习编写一般规则的最佳方式。我有如下 4 个案例，我想写一个适用于所有案例的通用模式。像这样的东西
javascript - OAuth 2.0 token 处理。是否有服务器 token 和客户端 token ？
我无法理解 oauth 2.0 token 的原则处理。我的场景是，我有一个基于 web 的前端后端系统，带有 node.js 和 angular 2。用户应该能够在此站点上上传视频。然后创建一些额

首页

博学

6Ren·AI

商城

tokenize - 有没有办法获取 BERT 中生成某个 token 的子字符串的位置？