- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我想为外语学习者自动注释难懂单词的文本。
例如,如果原文是:
El gato esta en la casa de mis vecinos
成为
El gato esta en la casa de mis vecinos (neighbours)
第一步是确定哪些词是难词。这可以通过对原始文本中的单词进行词形还原并将它们与“简单单词”列表(1500-2000 个单词的基本词汇表)进行比较来完成。未在此列表中找到的将被指定为“硬词”。使用适用于 Python 的自然语言工具包 (NLTK),此过程似乎非常简单。
对于必须成对翻译的单词存在一些困难,例如“newly weds”或短语动词“he called me up”或德语'er ruft mich an' (anrufen)。这里不能单独对待单词。对于短语动词等,可能需要对语法有所了解。
第二步涉及根据出现的上下文获得困难单词的正确翻译。据我了解,这有效地应用了像谷歌翻译这样的统计机器翻译系统的前半部分。我相信这个问题可以使用 Google Translate Research API 解决,它可以让您发送要翻译的文本,并且响应包括有关翻译中的哪个词对应于原始文本中的哪个词的信息。所以你可以输入整个句子,然后从响应中找出你想要的词。但是,您必须申请才能使用此 API,并且它们有使用限制,这对我的应用程序来说可能是个问题。我宁愿找到另一个解决方案。我预计没有任何解决方案会提供 100% 正确的翻译,并且必须手动检查它们,但这仍然会加快速度。
感谢您的评论。
大卫
最佳答案
对于初始步骤,无需依赖先验词汇 - 只需在训练语料库中累积标记计数并在测试集中标记未出现在排序词汇表中的截止点之前的标记足够了。
http://vuw.academia.edu/JosephSorell/Papers/549885/Zipfs_Law_and_Vocabulary
对于第二步,“根据出现的上下文获得困难单词的正确翻译”,是的,您需要访问 MT API 和/或人工翻译。选择最佳方法取决于您的目标。
您可以拥有正确的翻译、快速的翻译或廉价的翻译 - 我知道您不可能同时拥有这三者。
关于python - 单个单词的翻译,考虑上下文,使用计算机语言处理工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5443553/
出现以下错误 Network access for Distributed Transaction Manager (MSDTC) has been disabled. Please enable D
在调试应用程序时出现以下错误。 The CLR has been unable to transition from COM context 0x3b2d70 to COM context 0x3b2
在 GAE Go 中,为了记录,我们需要使用 appengine.NewContext(r) 创建一个新的上下文,它返回 context.Context。 如何使用此上下文在请求范围内设置/获取变量?
我想使用 Puppeteer 从放置在页面上 iframe 内的选择器中获取数据,该页面在与其父框架域不同的域上运行。因此,我不是任何域的所有者 - 无法使用 frame.postMessage。 试
我正在尝试获取可用的应用程序上下文并想切换到 webview 上下文,但 appium 仅获取 Navive App。 应用程序还启用了 WebView。 Appium 版本:1.10.1 Chrom
这个问题在这里已经有了答案: How to fix this nullOk error when using the flutter_svg package? (7 个回答) 7 个月前关闭。 当我尝
我观看了关于 Core Data 的 2016 WWDC 视频并查看了各种教程。我见过使用 Core Data Framework 创建对象以持久保存到 managedObjectContext 中的
这是代码 obj = { a: 'some value'; m: function(){ alert(this.a); } } obj.m(); 结果是'som
我正在尝试做类似的事情 $(".className").click(function() { $(this).(".anotherClass").css("z-index","1");
var User = { Name: "Some Name", Age: 26, Show: function() { alert("Age= "+this.Age)}; }; fun
我目前正在使用我见过的常见 Context 模式,它允许子组件通过传递修饰函数来更新父组件的状态(即 Provider)通过共享的 Context。 我遇到的问题是,修改函数只引用原始状态,不引用最新
有没有办法让 React Context类型安全与流类型? 例如: Button.contextTypes = { color: React.PropTypes.string }; 最佳答案 不幸
我想知道是否有一种方法可以为不同的功能使用不同的上下文类。 我希望有一个功能使用 MinkExtensions 进行浏览器测试,另一个功能使用和 HTTP 客户端(如 Guzzle)进行 API 测试
我有这个配置文件 apiVersion: v1 clusters: - cluster: server: [REDACTED] // IP of my cluster name: stag
我在实现非抢先式调度时遇到了用于初始化TCB的代码。 typedef struct TCB_t { struct TCB_t *next; struct TCB_t
我想将一个函数设置为数组中每个元素的属性,但使用不同的参数调用它。我想我会使用匿名函数来解决它: for ( var i = 0; i < object_count; i++ ) { obje
这个问题已经有答案了: How to access the correct `this` inside a callback (15 个回答) 已关闭 7 年前。 我正在做一些练习,但我在管道方法中丢
我正在尝试通过 Java 和 Android Studio 学习和制作 Android 应用程序。我对Java的了解程度是两年前几个小时的youtube学习和大学基础类(class)。不过我确实知道如
我在(这个)上遇到了问题。错误ImageView无法应用。我在 fragment 类中执行此代码。 ViewFlipper v_flipper; @Nullable @Override public
我想使用 openGL 的某些功能,但与渲染视觉内容无关。有没有办法在没有任何依赖性的情况下创建它(不是对 Windows,也不是某些包[SDL,SFML,GLUT])?只允许使用没有外部库的库,就像
我是一名优秀的程序员,十分优秀!