gpt4 book ai didi

ruby - 如何在大型集合中有效地计算所有短语?

转载 作者:太空宇宙 更新时间:2023-11-03 16:52:07 26 4
gpt4 key购买 nike

我需要创建一个短语频率表,计算一个包含几百万个单词的非常大的集合中的所有短语。最终结果将是一个表格,例如此处创建的表格: http://www.hermetic.ch/wfca/phrases.htm

什么是实现它的有效算法?如果您能够展示一些细节,那么看到它在 Ruby 中实现会更好。或者,坦率地说,我什至愿意使用 xapian或 lucene,但在根据需要构建频率表输出方面,没有看到用这些立即完成此操作的方法。

最佳答案

我建议使用以单词为键的散列,并在找到每个短语时递增值。

Ruby 专为此类数据操作而构建,因此您的方向是正确的。

我不会为您介绍该项目,但请仔细查看:

http://ruby-doc.org/core-2.0/Hash.html

然后了解您需要解析的基本正则表达式:

http://www.ruby-doc.org/docs/ProgrammingRuby/html/language.html#UJ

http://rubular.com/

编辑:我相信最近的 ruby​​,哈希是可排序的!我敢打赌这会对您的表格输出有所帮助。但是,我不确定 Ruby 如何(有效地?)实现它。

关于ruby - 如何在大型集合中有效地计算所有短语?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19015626/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com