- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
对于我正在构建的 Web 应用程序,我需要分析网站,检索并排列最重要的关键字并显示这些关键字。
获取所有单词、它们的密度并显示它们相对简单,但这会产生非常倾斜的结果(例如,停用词排名非常高)。
基本上,我的问题是:如何在 PHP 中创建一个关键字分析工具,以生成按单词重要性正确排序的列表?
最佳答案
最近,我自己一直在做这件事,我会尽量解释我做了什么。
您需要做的第一件事是过滤确保编码正确,因此转换为UTF-8:
iconv ($encoding, "utf-8", $file); // where $encoding is the current encoding
之后,您需要去除所有 html 标签、标点、符号和数字。在 Google 上查找有关如何执行此操作的功能!
$words = mb_split( ' +', $text );
由 1 个或 2 个字符组成的任何单词都没有任何意义,因此我们将它们全部删除。
要删除停用词,我们首先需要检测语言。有几种方法可以做到这一点: - 检查 Content-Language HTTP header - 检查 lang=""或 xml:lang=""属性 - 检查语言和内容语言元数据标签如果这些都没有设置,您可以使用像 AlchemyAPI 这样的外部 API。 .
您需要一份每种语言的停用词列表,可以在网络上轻松找到。我一直在用这个:http://www.ranks.nl/resources/stopwords.html
要计算每个单词的出现次数,请使用:
$uniqueWords = array_unique ($keywords); // $keywords is the $words array after being filtered as mentioned in step 3
$uniqueWordCounts = array_count_values ( $words );
现在循环遍历 $uniqueWords 数组并计算每个单词的密度,如下所示:
$density = $frequency / count ($words) * 100;
单词突出度由单词在文本中的位置定义。例如,第一句中的第二个词可能比第 83 句中的第 6 个词更重要。
要计算它,请在上一步的同一循环中添加以下代码:'
$keys = array_keys ($words, $word); // $word is the word we're currently at in the loop
$positionSum = array_sum ($keys) + count ($keys);
$prominence = (count ($words) - (($positionSum - 1) / count ($keys))) * (100 / count ($words));
一个非常重要的部分是确定一个词的位置 - 在标题、描述等中。
首先,您需要使用 DOMDocument 或 PHPQuery 之类的东西获取标题、所有元数据标签和所有标题(不要尝试使用正则表达式!)然后你需要在同一个循环中检查这些是否包含这些单词。
最后一步是计算关键字值。为此,您需要权衡每个因素 - 密度、突出度和容器。例如:
$value = (double) ((1 + $density) * ($prominence / 10)) * (1 + (0.5 * count ($containers)));
这个计算远非完美,但它应该会给你不错的结果。
我没有提到我在工具中使用的每一个细节,但我希望它可以为关键字分析提供一个很好的视角。
注意是的,这是受今天关于回答您自己问题的博文的启发!
关于php - PHP中的关键字分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10721836/
如果我创建一个对象时没有使用 new 关键字,例如“Object s(someval)”,但该对象的构造函数使用了 new,当该对象超出范围时,是否会调用析构函数为其分配新的空间?我感觉好像是,但我不
在 SQL 语法中,我发现奇怪的规则表明 select * from ONLY (t1)是有效的 SQL。 我的问题是:什么是 ONLY在这种情况下是什么意思? 它在规范的“7.6 table ref
为什么使用 $(this) 而不是重新选择类很重要? 我在代码中使用了大量的动画和 CSS 编辑,并且我知道可以使用 $(this) 来简化它。 最佳答案 当您通过 jQuery 执行 DOM 查询(
我正在尝试使用 IN 关键字编写查询。 表A 属性标识、属性名称 表B key 、属性标识、属性值 根据提供的 key ,我想返回所有 attrName、attrVal 组合。结果将包含两个表中的列。
这个问题在这里已经有了答案: Why would you use "AS" when aliasing a SQL table? (8 个答案) 关闭 9 年前。 我不擅长写查询,但是从我开始使用
我读过,在 Java 中,您不必将 this 关键字显式绑定(bind)到对象,它由解释器完成。它与 Javascript 相反,在 Javascript 中你总是必须知道 this 的值。但是 Ja
Swift 中“with”关键字的用途是什么?到目前为止,我发现如果您需要覆盖现有的全局函数,例如 toDebugString,可以使用该关键字。 // without "with" you
这个问题在这里已经有了答案: What does the keyword "where" in a class declaration do? (7 个答案) 关闭 9 年前。 在下面的一段代码中(
免责声明:swift 菜鸟 您好,我刚刚开始学习 Swift,正在学习 Swift 编程语言(Apple 在 WWDC 期间发布的书籍),并且想知道“where”关键字是什么。它用于 let vege
深入研究文档后,我找不到以下问题的答案: 是否有任何理由反对使用 this 来引用当前对象,如下例所示? type MyStruct struct { someField string } fun
前言 最近在做THINKPHP开发项目中,用到了 parent:: 关键字,实际上 parent::关键字 是PHP中常要用到的一个功能,这不仅仅是在 THINKPHP 项目开发中,即使是一个小型
我们都知道且经常用到 unsigned 关键字,但有没有想过,与此对应的 signed 关键字有啥用? 复制代码 代码如下: int i = 0; signed
this关键字再java里面是一个我认为非常不好理解的概念,:)也许是太笨的原因 this 关键字的含义:可为以调用了其方法的那个对象生成相应的句柄。 怎么理解这段话呢? thinking i
一 什么是 synchronized synchronized 关键字提供了一种锁机制,能够确保共享变量互斥访问,从而防止数据不一致问题的出现。 synchronized 关键字包括 monitor
最近看了几篇 synchronized 关键字的相关文章,收获很大,想着总结一下该关键字的相关内容。 1、synchronized 的作用 原子性:所谓原子性就是指一个操作或者多个操作,要么全部执行并
在本教程中,您将借助示例了解 JavaScript 对象方法和 this 关键字。 在 JavaScript 中,对象也可以包含函数。例如, // object containing meth
有人可以解释一下 PHP“with”的作用吗? 示例开始: 假设我有一个类: \App\fa_batch 这句话有什么区别: $w = (with (new \App\fa_batch))
这个问题在这里已经有了答案: What is the difference between using the colon and as syntax for declaring type? (2
如果我在 WHERE 子句中使用以下任一项,是否会有很大不同: WHERE [Process Code] = 1 AND ([Material ID] = 'PLT' OR [Material ID]
This question is unlikely to help any future visitors; it is only relevant to a small geographic are
我是一名优秀的程序员,十分优秀!