php - N-gram : Explanation + 2 applications-6ren

php - N-gram : Explanation + 2 applications

转载作者：IT王子更新时间：2023-10-29 00:07:25

25

4

我想用 n-gram 实现一些应用程序(最好用 PHP)。

哪种类型的 n-gram 更适合大多数用途？单词级别还是字符级别的 n-gram？如何在 PHP 中实现 n-gram-tokenizer？

首先，我想知道 N-gram 到底是什么。这个对吗？这就是我对 n-gram 的理解:

句子:“我住在纽约。”

词级二元组(n 为 2):“# I”、“I live”、“live in”、“in NY”、“NY #”</p>

字符级二元组(2 个代表 n):“#I”、“I#”、“#l”、“li”、“iv”、“ve”、“e#”、“#i”、“in” ", "n#", "#N", "NY", "Y#"

当您拥有这个 n-gram-parts 数组时，您可以删除重复的部分并为每个部分添加一个计数器以给出频率:

词级二元组:[1, 1, 1, 1, 1]

字符级二元组:[2, 1, 1, ...]

这是正确的吗？

此外，我想进一步了解您可以使用 n-gram 做什么:

如何使用 n-gram 识别文本的语言？
是否可以使用 n-gram 进行机器翻译，即使您没有双语语料库？
如何构建垃圾邮件过滤器(垃圾邮件、非垃圾邮件)？将 n-gram 与贝叶斯过滤器相结合？
如何进行主题定位？例如:有关篮球或狗的文字？我的方法(用维基百科关于“狗”和“篮球”的文章执行以下操作):为两个文档构建 n-gram 向量，对其进行归一化，计算曼哈顿/欧几里德距离，结果越接近 1 越高相似度

您如何看待我的申请方法，尤其是最后一个？

我希望你能帮助我。提前致谢!

最佳答案

对于您提到的大多数文本分析应用程序，单词 n-gram 通常会更有用，但语言检测可能除外，在这种情况下，诸如字符三元组之类的东西可能会提供更好的结果。实际上，您将为您有兴趣检测的每种语言的文本语料库创建 n-gram 向量，然后将每个语料库中三元组的频率与您正在分类的文档中的三元组进行比较。例如，三元组 the 在英语中的出现频率可能比在德语中的出现频率高得多，并且会提供某种程度的统计相关性。获得 n-gram 格式的文档后，您可以选择多种算法进行进一步分析、Baysian 滤波器、N-最近邻、支持向量机等。

在您提到的应用程序中，机器翻译可能是最牵强的，因为单独的 n-gram 不会让您走得很远。将输入文件转换为 n-gram 表示只是将数据转换为格式以进行进一步特征分析的一种方式，但是由于您会丢失大量上下文信息，因此可能对翻译没有用处。

需要注意的一点是，为一个文档创建一个向量 [1,1,1,2,1] 为另一个文档创建一个向量 [2,1,2,4] 是不够的，如果尺寸不匹配。也就是说，向量中的第一个条目不能是一个文档中的 the 和另一个文档中的 is ，否则算法将不起作用。你最终会得到像 [0,0,0,0,1,1,0,0,2,0,0,1] 这样的向量，因为大多数文档不会包含你感兴趣的大多数 n-gram。这个“衬里”特征的增加是必不可少的，它要求您“提前”决定您将在分析中包含哪些 ngram。通常，这是作为两遍算法实现的，首先确定各种 n-gram 的统计显着性以决定保留什么。谷歌“功能选择”了解更多信息。

基于单词的 n-gram 和支持向量机以一种出色的方式执行主题定位，但是您需要预先分类为“主题”和“主题外”的大量文本语料库来训练分类器。您会在 citeseerx 等网站上找到大量研究论文，解释解决此问题的各种方法。 .我不会推荐欧几里得距离方法来解决这个问题，因为它不会根据统计显着性对单个 n-gram 进行加权，因此两个文档都包含 the、a、 is 和 of 将被视为比两个都包含 Baysian 的文档更好的匹配。从您感兴趣的 n-gram 中删除停用词会有所改善。

关于php - N-gram : Explanation + 2 applications，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1032288/

25

4

0

文章推荐： Android水平RecyclerView滚动方向

文章推荐： mysql - 基于 Web 的 MySQL 界面比 phpMyAdmin 更好

文章推荐： php - 如何访问带有美元符号的 PHP 对象属性？

文章推荐： php - 在 PHP 中自动修剪 mp3

coldfusion - Application.cfc 与 Application.cfm 以及扩展 Application.cfc 的需要
我将从 ColdFusion 8 迁移到 ColdFusion 10。目前，在我的Unix根目录下，我只有1个Application.cfm，在这个根目录下我有大约10个子目录(以前的程序员就是这样
java - : JavaFX application class must extend javafx. application.Application 是什么意思？
这个问题在这里已经有了答案: Is it possible to write a program in Java without main() using JDK 1.7 or higher? [d
delphi - Windows 服务应用程序中的 Application.ProcessMessages、Application.Handle 和 Application.Termulated 等价于什么？
我是编写 Windows 服务应用程序的新手，并且遇到了问题。我用 Delphi 编写了一个普通的 Windows 应用程序来检查和调试代码的主要部分，现在必须将其转换为 NT 服务。我的代码必须
c# - : Application' is an ambiguous reference between 'System.Windows.Application' and 'System.Windows.Forms.Application' 错误
我在 Visual Studio 2013 中运行它。对于 Application.Current.Shutdown 我得到: “Application”是“System.Windows.Appli
c++ - gcc 创建 mime 类型 application/x-sharedlib 而不是 application/x-application
给定以下 C++ 代码“mini.cpp”: #include "iostream" using namespace std; int main() { cout << "Hello Worl
web-applications - 什么是 "server application"？
什么是“服务器应用程序”？我被要求写一篇关于“服务器应用程序”中的错误的文章，但我不熟悉确切的术语。它们只是网络应用程序，还是其他东西？最佳答案 “服务器应用程序”是一种应用程序，它等待来自其他应用
JavaFX 应用程序类必须扩展 javafx.application.Application
JavaFX 应用程序类必须扩展 javafx.application.Application package automationFramework import java.util.concurr
Application open within application(在应用程序中打开应用程序)
I have implemented deeplinking in my application that open my app (if available) but my app opens
java - 错误 : Could not find or load main class application. 主要由 : java. 引起 lang.NoClassDefFoundError: javafx/application/Application JDK 11
我被困在一个非常基本的问题上。我使用 JavaFX 创建了一个简单的 hello world 程序，它在 JDK 1.8 上运行良好。但是当我切换到 JDK-11 时，它会抛出以下异常: Error:
azure-application-insights - Azure Application Insights中的每小时平均使用量
我可以让Application Insights显示正在运行的每小时使用情况日志，但是有没有一种方法可以每小时显示一次平均使用情况，以查看必须在一天中的哪个时段使用网站？最佳答案在您的资源的概览
azure-application-insights - Azure Application Insights中的用户代理信息
有谁知道为什么在.NET应用程序中实现Application Insights时不会收集用户代理信息，却能够在浏览器中收集统计信息？我很希望能够针对特定的用户代理字符串过滤出请求，但是看起来我无法看
azure-application-insights - Application Insights 中的城市数据
我有多个应用程序使用 Application Insights for Production Data。我正在尝试使用 City 遥测字段来映射我们当前的用户。这些数据的跟踪似乎非常不一致，并且在大多
azure-application-insights - 是否可以在实时应用程序中禁用或启用 Application Insight
有没有办法在 ASP.NET Web 应用程序中禁用 Application Insights？假设我想关闭生产中运行的应用程序中的所有数据收集。最佳答案如果 ikey 在 Application
azure-application-insights - Application Insights，将时差转换为毫秒
如何在 Azure Application Insights 中将时差转换为毫秒 let startTime = todatetime('2017-05-15T17:02:23.7148691Z');
Coldfusion Application.cfc & Application.cfm 在同一文件夹中
我正在修改一个用 Coldfusion 编码的现有 Web 应用程序。在现有代码中，大部分文件夹包含一个 Application.cfm 文件，该文件设置应用程序变量但是，我对这些应用程序的部分修改
azure-application-insights - Application Insights 提取嵌套的自定义维度
我在 Application Insights Analytics 中有一些数据，它有一个动态对象作为自定义维度的属性。例如: | timestamp | name
c# - C#:并行形式，多线程和 “applications in application”
首先，我需要的是-n WebBrowser-s，每个都在自己的窗口中执行自己的工作。用户应该能够看到所有这些内容，或者仅看到其中一个(或不显示任何内容)，并且能够对每一个执行命令。有一个主要形式，没有
vba - VBA错误处理: Application.setOption and Application.setOption
我已收到以下代码以添加到封闭代码(受密码保护)中，以便可以发现错误。 On Error Resume Next: Err.Clear Application.SetOption "Error Trap
delphi - 从单元调用 "application.processmessages"- "application"未声明
我正在使用 Delphi 7。我试图在非 VCL 单元中添加一个调用“application.processmessages”的过程。我收到错误“未声明的标识符:应用程序”。如何从非 vcl 单元引
java - 传递对 javafx.application.Application 的引用
考虑一个非外汇现有应用程序，我们将其称为Business。 Business 公开一个 Model 对象，该对象又公开一些属性。 Model 还接受这些属性的监听器。我的问题是关于向此类应用程序添加

首页

博学

6Ren·AI

商城

php - N-gram : Explanation + 2 applications