- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个大约 1 GB 的 ARPA 文件。我必须在不到 1 分钟的时间内在其中进行搜索。我已经搜索了很多,但我还没有找到合适的答案。我想我不必阅读整个文件。我只需要跳转到文件中的特定行并阅读整行。 ARPA 文件的行长度不同。我不得不提的是,ARPA 文件具有特定的格式。
\data\ngram 1=19ngram 2=234ngram 3=1013\1-grams:-1.7132 puluh -3.8008-1.9782 satu -3.8368\2-grams:-1.5403 dalam dua -1.0560-3.1626 dalam ini 0.0000\3-grams:-1.8726 itu dan tiga-1.9654 itu dan untuk\end\
如您在示例文件中所见,我有 19 行 1-gram、234 行 2-gram 和 1013 行 3-gram。我将行的字符串部分提供给程序,并获取字符串左侧和右侧的数字。输入的字符串可以帮助我知道我必须在文件的哪一部分进行搜索。我必须找到一种不完全读取文件的方法,因为我的文件非常大,读取整个文件需要很多时间。我认为在不使用索引文件并访问整行的情况下跳转到文件中的特定行是一种很好的方法。
如果你能帮我完成我的作业就太好了。
最佳答案
我不知道 ARPA 文件是什么。我假设它是某种包含文本的文件。
你要做的是首先索引文件,这样你就可以将文件中的行号与字符串相关联。
这是一个大文件,因此您可能会将索引存储在一个单独的文件中。
首先,在用户搜索之前,您需要运行索引。然后,您将在索引中搜索用户正在查找的字符串所在的行号。
关于java - 在非常短的时间内在 Java 中搜索非常大的 ARPA 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5127640/
关闭。这个问题需要details or clarity .它目前不接受答案。 想改进这个问题吗? 通过 editing this post 添加细节并澄清问题. 关闭 8 年前。 Improve t
我正在编写一个用于计算 ngram 概率的小型库。 我有一个由 arpa 文件描述的 LM(它的格式非常简单:probability ngram backoff_weight): ... -5.109
我想了解正则表达式的工作原理。我一点一点地明白了。但是,我不完全理解这一点。它基本上是完全限定域名的正则表达式,但要求结尾不能是 .arpa。 (?=^.{4,253}$)(^([a-zA-Z0-9]
嘿,抱歉,我是 C 新手,但下面的代码是我从教程中找到的,我只是想知道他们在 memset 函数中使用 \0 是否有具体原因?还是只是随机的? #include (...) int retva
我正在寻找一个 pythonic 接口(interface)来加载 ARPA 文件(后退语言模型)并使用它们来评估一些文本,例如得到它的对数概率、困惑度等。 我不需要在 Python 中生成 ARPA
问题真的很简单。我需要一个工具来将 char* 转换为 ip 地址并在中使用它 sockaddr_in.s_addr arpa/inet.h 有 inet_addr() 功能,但我不确定我是否已经在
我正在使用 Xcode 7.2 构建 NC 应用程序。我从http://www.opensource.apple.com/source/netcat/netcat-30.20.1/下载NC源代码 当我
我有一个大约 1 GB 的 ARPA 文件。我必须在不到 1 分钟的时间内在其中进行搜索。我已经搜索了很多,但我还没有找到合适的答案。我想我不必阅读整个文件。我只需要跳转到文件中的特定行并阅读整行。
我正在处理 IMAP 邮箱,但在使用 mxDateTime 包解析日期时遇到问题。特别是像“Fri, 1 Jan 1904 00:43:25 -0400”这样的早期日期会造成麻烦: >>> impor
我想创建一个将近 50,000 个单词的 ARPA 语言模型文件。我无法通过将我的文本文件传递给 CMU 语言工具来生成语言模型。是否有任何其他链接可以获得这些单词的语言模型? 最佳答案 我以为我会回
当我使用命令 nslookup在服务器上 - 它适用于 IP 和 DNS。但是在客户端(客户端从服务器(dhcp)获取所有信息)我在使用 nslookup 192.168.1.10 时遇到了这样的错误
我为客户端和服务器创建了一个 C 程序,用于将数据从一台计算机传输到另一台计算机。代码如下 #include #include #include #include #include #inc
其中一个不会让另一个可见吗?它们之间有什么区别以及何时使用什么?我的教授为我提供了一个入门代码,他使用了 在服务器套接字和 在客户端中。这有什么原因吗? 最佳答案 这是 C 库中的常见模式: head
我是一名优秀的程序员,十分优秀!