- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我使用的是 Python 3.1,但如果需要我可以降级。
我有一个 ASCII 文件,其中包含一个用其中一种语言编写的短篇小说,其字母表可以用大写和/或小写 ASCII 表示。我希望:
1) 尽我所能检测编码,获得某种置信度指标(会因文件长度而异,对吧?)
2) 使用一些免费的在线服务或图书馆自动翻译整个内容。
附加问题:如果文本是用一种语言编写的,需要 2 个或更多字节来表示一个字母,而字节顺序标记对我没有帮助怎么办?
最后,我该如何处理标点符号和诸如空格之类的其他字符?它会比某些字母更频繁地出现,对吧?标点符号和字符有时可以混合使用这一事实怎么样 - 逗号可能有两种表示形式,看起来像“a”的两种表示形式等等?
是的,我已经阅读了the article by Joel Spolsky on Unicode .请至少帮我解决其中的一些问题。
谢谢!
附言这不是家庭作业,而是出于自学目的。我更喜欢使用开源且可读的字母频率库,而不是封闭、高效但可以很好地完成工作的字母频率库。
最佳答案
基本上有三个主要任务来实现所描述的应用程序:
对于 1a,您可能需要查看 decodeh.py ,除了脚本本身,它还提供了很多关于字符集和编码的非常有用的资源。 CharDet,在其他答案中提到,似乎也值得考虑。
一旦字符编码已知,如您所建议,您可以通过计算文本的字符频率配置文件并将其与已知频率匹配来解决 1b)。虽然简单,但这种方法通常提供不错的准确率,尽管它在较短的文本和遵循特定模式的文本上可能较弱;例如,大量引用公制单位的法语文本中字母 M、K 和 C 的比例异常高。
一种互补且非常相似的方法,使用二元语法(两个字母的序列)和三元语法(三个字母)以及各种语言中相应的频率分布引用表。
其他语言检测方法涉及对文本进行标记化,即考虑文本中的单词。 NLP 资源包括包含各种语言中最常用单词的表格。这些词通常是冠词、所有格形容词、副词等。
语言检测的另一种解决方案是依靠在线翻译服务为我们解决这个问题。重要的是向翻译服务提供其理解的字符编码文本,提供语言可能是多余的。
最后,由于许多实际的 NLP 应用程序,您可能会决定实现多个解决方案。通过使用策略设计模式,可以按特定顺序应用多个过滤器/分类器/步骤,并根据情况在不同点退出此逻辑。例如,如果一个简单的字符/二元组频率将文本与英语相匹配(偏差很小),那么人们可能就到此为止了。否则,如果猜测的语言是法语或德语,则进行另一次测试等。
关于Python - 字母频率计数和翻译,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2233355/
翻译自官方wiki: https://github.com/facebook/rocksdb/wiki/Write-Stalls 转载请注明出处: https://www.cnblogs.c
译者注:在微服务架构设计,构建API和服务间通信技术选型时,对 REST 和 gRPC 的理解和应用还存在知识盲区,近期看到国外的这篇文章: A detailed comparison of
rocksdb调试指引 翻译自官方wiki: https://github.com/facebook/rocksdb/wiki/RocksDB-Tuning-Guide 转载请注明出处: h
传统的ASP.NET Web Forms是一个非常好的主意,但现实需求非常复杂。随着时间的推移,现实世界的项目暴露出Web Forms的一些不足之处: “沉重的”视图状态:现实中在http请求之间
翻译自:Top 10 questions of Java Strings 简单地说,”==”测试两个字符串的引用是否相同,equals()测试两个字符串的值是否相同。除非你希望检
你好,今天我要和大家分享一些东西,举例来说这个在JavaScript中用的很多。我要讲讲回调(callbacks)。你知道什么时候用,怎么用这个吗?你真的理解了它在java环境中的用法了吗?当我也问
Java多线程面试问题 1. 进程和线程之间有什么不同? 一个进程是一个独立(self contained)的运行环境,它可以被看作一个程序或者一个应用。而线程是在进程中执行的一个
原文: [A Dive into .Net 8 Native AOT and Efficient Web Development] 作者: [sharmila subbiah] 引言 随着 .NE
这是Fiddle 是否可以在 angular-translate 中检查其他语言的键值是否可用,然后它可以从其他语言中提取该键值? 就像在示例中,我有英语和西类牙语。并且一个键值(例如“CONFIRM
我希望能够使用 $this->__('String to translate')在外部脚本中。我该怎么做呢? Magento 版本 1.5.1.0 . 最佳答案 我认为设置语言环境的正确方法是: Ma
我有一个开关小部件,它使用自定义数据属性值来标记自己。 .switch.switch-text .switch-label::before { right: 1px; color: #c2cf
是否有人遇到过这样的情况:用 Java 编写并由(例如)法国程序员编写的现有代码库必须转换为英语程序员可以理解的代码?这里的问题是变量/方法/类名称、注释等都将采用该特定语言。 现在有可用的自动化解决
维基百科和其他一些网站将解释器描述为将代码从某种高级语言翻译成某种低级语言的翻译器。然而,有很多解释,包括在 stackoverflow 中,它说解释器直接执行作为输入的指令,而无需事先转换。那么解释
我想将基本动画应用于自定义单元格中的某些元素,例如标签、图像:特别是,我想让这些动画在我触摸单元格内部时也启动。我是初学者,我只学会了使用 animateWithDuration 和 transiti
这个问题在这里已经有了答案: NSDateFormatter and current language in iOS11 (5 个回答) 已关闭 3 年前。 当使用这样的 DateComponentF
我想在点击 var about 时移动 div.willshow。但我单击那个 btn,只有它获得类 active。然后我再次单击那个 btn 它失去了类。如果我再点击一次,每项任务都无法正常工作。
我想要一个按钮在悬停时向下移动几个像素,但它又回来了。当您还在上面徘徊时,它不应该留在原处吗? Email Me .btn {background: #2ecc71; padding: .5em 1e
在我的应用程序中,我想添加功能将页面翻译为用户在浏览器中设置的所有语言,如果没有可用的语言,则翻译为默认英语...问题是浏览器与语言支持不一致。我找到了一个解决方法,我对一些返回用户语言的 Web 服
我的应用程序有一个 Help.htm 文件,用谷歌翻译翻译得相当好。我想将菜单项标记为“请勿翻译”,但我发现并尝试过的 HTML 标签都不起作用。对于以下内容,我使用了谷歌翻译网站 - 它翻译了我没想
我有以下代码: span { width:200px; height:100px; background-color:red; border:1px solid black; } span.c2 {
我是一名优秀的程序员,十分优秀!