python - 如何使用 SpaCy 解决西类牙语词形还原问题？-6ren

python - 如何使用 SpaCy 解决西类牙语词形还原问题？

转载作者：行者123 更新时间：2023-12-02 06:46:21

25

4

尝试时 西类牙语 lemmatize 超过 60,000 字的 csv， SpaCy 没有正确写出某些单词，我知道该模型不是 100% 准确的。但是，我还没有找到任何其他解决方案，因为 NLTK 不带西类牙核心。

有 friend 在西类牙语的 Stackoverflow 上问过这个问题，但是这个社区和这个社区相比还是很小的，我们没有得到任何答案。

代码:

nlp = spacy.load('es_core_news_sm')

def lemmatizer(text):  
  doc = nlp(text)
  return ' '.join([word.lemma_ for word in doc])

df['column'] = df['column'].apply(lambda x: lemmatizer(x))

我试图对某些我发现错误的词进行词形还原，以证明 SpaCy 没有正确执行:

text = 'personas, ideas, cosas' 
# translation: persons, ideas, things

print(lemmatizer(text))

# Current output:
personar , ideo , coser 
# translation:
personify, ideo, sew

# The expected output should be:
persona, idea, cosa

# translation: 
person, idea, thing

最佳答案

与英语 lemmatizer 不同，spaCy 的西类牙语 lemmatizer 根本不使用 PoS 信息。它依赖于变形动词和引理的查找列表(例如，ideo idear、idea idea、ideaider、ideamos idear 等)。它只会输出列表中的第一个匹配项，而不管其 PoS。

我实际上为西类牙语开发了 spaCy 新的基于规则的 lemmatizer，它考虑了 PoS 和形态信息(例如时态、性别、数字)。这些细粒度的规则使它比当前的查找词形还原器更准确。它很快就会发布!

同时，您可以使用斯坦福 CoreNLP 或 FreeLing。

关于python - 如何使用 SpaCy 解决西类牙语词形还原问题？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60534999/

25

4

0

文章推荐： c# - 如何在C#中检查double值是否为null？

文章推荐： hard-coding - 硬编码到底是什么？

文章推荐：删除 R 中列值介于 -1 和 1 之间的行

git - 还原 merge 还原
我以这种方式恢复了 merge 提交(功能->开发): git revert -m 1 git push origin develop 已创建新提交 Revert "Merge branch 'fe
delphi - 如何对具有子属性的属性进行编码？ (还原)
我确信我得到了一个很好的答案 my previous question因为我之前从那些发帖的人那里得到了很多关于其他问题的帮助。但我显然做错了什么，因为当我复制示例代码时，对象检查器向我显示的 My
github for windows 还原
我现在处于一个非常愚蠢的境地。使用 git-hub for windows 我已经恢复了我最近的两个本地提交，我无法撤消这个(恢复命令)。很多代码都没有了。是否可能恢复还原的提交？我是 git 的新手
git - TortoiseGit - 还原？
我正在使用 TortoiseGit。我想恢复到删除几张图片之前的某个时间点。我该怎么做，我看到的还原方法是不正确的.... 最佳答案右键单击您的工作目录并从 TortoiseGit 菜单中选择显示
terraform 还原 RDS 备份
我们使用 Terraform 在 AWS 中创建所有资源。如果一切按计划进行，那将很方便。但是，我们确实必须考虑出现问题的时间。我们有一个问题是 RDS 实例。它由 Terraform 创建和跟踪。在
TortoiseSVN 还原 vs 更新
跟在后面有什么区别？ (右键单击项目文件夹)更新到修订版 XXX (右击日志列表)恢复到这个版本 (右键单击日志列表)还原此修订版的更改最佳答案 (右键单击项目文件夹)更新到修订版 XXX Your
java - 还原 Eclipse 透视图
我不知何故搞砸了我的观点，我想重置它们，但是重置按钮是灰色的。有谁知道会导致这种情况的原因吗？我希望我有更多的信息，但我真的只知道这些。最佳答案转到窗口菜单 => 重置透视图。编辑: 该选项可
reactjs - 多用户登录认证| react 还原
我有一个具有多用户登录功能的应用程序。现在，我为登录功能创建了 redux 存储。如果用户登录，根据其类型，它将重定向到特定的仪表板。如果学生用户登录，他应该只能访问学生仪表板，他不应该能够访问其他仪
git - 反正有没有查看所有以前的 GIT 还原
我已经恢复了一些更改。需要知道之前恢复的代码中的文件和更改(差异)。最佳答案是的，正如 ElpieKay 所说，您可以使用 git log --grep='Revert' 。还有一个默认消息“
javascript - typescript react /还原
出现错误 ERROR in [at-loader] ./src/app/components/partials/userPartial.tsx:101:33 TS2339: Property 'lev
javascript - 还原。没有括号，导出无法正确完成
我不明白为什么主 JS 文件不想从 './actions' 导入 todo 而不带括号？ todos from './reducers' 类似的情况，import 没有任何问题。主 js 文件: i
javascript - 还原 AngularJS 中的过滤器
我像这样以编程方式应用 AngularJS 过滤器: filtered = $filter('number')(value, 2); 这会给我类似 5,000.00 的东西。我需要一种方法来获取过滤后
javascript - 还原。将状态值传递给 reducer
我正在尝试在我的应用中实现 Redux。所以，我创建了 action、reducer、store 等……现在我必须将状态传递给 reducer 并更改此参数( bool 值)的值。我不知道我做错了什么
Javascript 跨越内容，设置文本()，还原
我有一个带有如下 DIV 的跨度: Here is my 现在我可以将我的内容设置为跨度，例如: $(.span.foo).text("This removed my inn
database - 还原 Postgres 数据库时出现不重音问题
我也想将另一个数据库名称下的特定数据库还原到另一台服务器。到目前为止，还不错。我使用了这个命令: pg_dump -U postgres -F c -O -b -f maindb.dump main
git - 还原 git 上次提交并将其保存在不同的分支中
有没有办法回滚上次的提交，放到单独的分支中，以供以后测试？我做了一些我不想完全丢弃的更改，我只是想将它们放在不同的分支中以供进一步测试。谁能帮我解决这个问题？最佳答案是的，您可以实现这一点 -
git - 还原 merge 所做的更改
开发人员正在对两个文件进行小的更改。但是在这次提交期间，他遇到了 merge 冲突，删除了很多东西(可能没有最新的版本)。然后它被推送到共享仓库，其他一些开发人员做了一些其他提交。现在，我们注意到
git - 如何使用 Git 还原
git revert 是如何使用的？这听起来像是一个重复的问题，但当人们问它时，回答通常是，按照 Revert to a commit by a SHA hash in Git? 使用 git re
还原 Cloudflare CDN 漏洞被利用的过程
Cloudflare 已修复其免费开源 CDNJS 中的一个严重漏洞，该漏洞可能影响互联网上 12.7% 的网站。 CDNJS为数百万网站提供超过4000个JavaScript和CSS库，这些库公
命令行模式下备份、还原 MySQL 数据库的语句小结
为了安全起见，需要经常对数据库作备份，或者还原。对于 MySQL 而言，最方便的方法可能就是用 phpMyAdmin 的导出、导入功能了，但如果你的数据库体积比较大，作为 Web 应用的 phpMy

首页

博学

6Ren·AI

商城

python - 如何使用 SpaCy 解决西类牙语词形还原问题？