gpt4 book ai didi

python - 单个单词的翻译,考虑上下文,使用计算机语言处理工具

转载 作者:太空狗 更新时间:2023-10-30 01:35:20 26 4
gpt4 key购买 nike

我想为外语学习者自动注释难懂单词的文本。

例如,如果原文是:

El gato esta en la casa de mis vecinos

成为

El gato esta en la casa de mis vecinos (neighbours)

第一步是确定哪些词是难词。这可以通过对原始文本中的单词进行词形还原并将它们与“简单单词”列表(1500-2000 个单词的基本词汇表)进行比较来完成。未在此列表中找到的将被指定为“硬词”。使用适用于 Python 的自然语言工具包 (NLTK),此过程似乎非常简单。

对于必须成对翻译的单词存在一些困难,例如“newly weds”或短语动词“he called me up”或德语'er ruft mich an' (anrufen)。这里不能单独对待单词。对于短语动词等,可能需要对语法有所了解。

第二步涉及根据出现的上下文获得困难单词的正确翻译。据我了解,这有效地应用了像谷歌翻译这样的统计机器翻译系统的前半部分。我相信这个问题可以使用 Google Translate Research API 解决,它可以让您发送要翻译的文本,并且响应包括有关翻译中的哪个词对应于原始文本中的哪个词的信息。所以你可以输入整个句子,然后从响应中找出你想要的词。但是,您必须申请才能使用此 API,并且它们有使用限制,这对我的应用程序来说可能是个问题。我宁愿找到另一个解决方案。我预计没有任何解决方案会提供 100% 正确的翻译,并且必须手动检查它们,但这仍然会加快速度。

感谢您的评论。

大卫

最佳答案

对于初始步骤,无需依赖先验词汇 - 只需在训练语料库中累积标记计数并在测试集中标记未出现在排序词汇表中的截止点之前的标记足够了。

http://vuw.academia.edu/JosephSorell/Papers/549885/Zipfs_Law_and_Vocabulary

对于第二步,“根据出现的上下文获得困难单词的正确翻译”,是的,您需要访问 MT API 和/或人工翻译。选择最佳方法取决于您的目标。

您可以拥有正确的翻译、快速的翻译或廉价的翻译 - 我知道您不可能同时拥有这三者。

关于python - 单个单词的翻译,考虑上下文,使用计算机语言处理工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5443553/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com