php - 将文档总数除以包含词干的文档数-6ren

php - 将文档总数除以包含词干的文档数

转载作者：行者123 更新时间：2023-11-29 02:31:39

24

4

我有 2 个表:

tb_sentence :

================================
|id|doc_id|sentence_id|sentence|
================================
| 1|  1   |   0       |    AB  |
| 2|  1   |   1       |    CD  |
| 3|  2   |   0       |    EF  |
| 4|  2   |   1       |    GH  |
| 5|  2   |   2       |    IJ  |
| 6|  2   |   3       |    KL  |
================================

首先，我计算每个 document_id 中的句子数量，并将它们保存在变量 $total_sentence 中。所以 $total_sentence 变量的值是 Array ( [0] => 2 [1] => 4 )

第二个表是tb_stem:

============================
|id|stem|doc_id|sentence_id|
============================
|1 | B  |  1   |     0     |
|2 | A  |  1   |     1     |
|3 | C  |  2   |     0     |
|4 | A  |  2   |     1     |
|5 | E  |  2   |     2     |
|6 | C  |  2   |     3     |
|7 | D  |  2   |     4     |
|8 | G  |  2   |     5     |
|9 | A  |  2   |     6     |
============================

其次，我需要对每个doc_id中的stem数据进行分组，然后统计由之前的结果组成的sentence_id的数量($ token )。这个概念是将文档总数除以包含词干的文档数。代码:

$query1 = mysql_query("SELECT DISTINCT(stem) AS unique FROM `tb_stem` group by stem,doc_id ");
while ($row = mysql_fetch_array($query1)) {
    $token = $row['unique']; //the result $token must be : ABACDEG
}

$query2 = mysql_query("SELECT stem, COUNT( DISTINCT sentence_id ) AS ndw FROM `tb_stem` WHERE stem = '$token' GROUP BY stem, doc_id");
    while ($row = mysql_fetch_array($query2)) {
        $ndw = $row['ndw']; //the result must be : 1122111
}

$idf = log($total_sentence / $ndw)+1; //$total_sentence for doc_id = 1 must be divide $ndw with the doc_id = 2, etc

但是结果在不同的文档之间是不分开的，如下表:

============================
|id|word|doc_id|  ndw |idf |
============================
|1 | A  |      |      |    |
|2 | B  |      |      |    |
|3 | C  |      |      |    |
|4 | D  |      |      |    |
|5 | E  |      |      |    |
|6 | G  |      |      |    |
============================

结果必须是:

 ============================
|id|word|doc_id|  ndw |idf |
============================
|1 | A  |   1  |      |    |
|2 | B  |   1  |      |    |
|3 | A  |   2  |      |    |
|4 | C  |   2  |      |    |
|5 | D  |   2  |      |    |
|6 | E  |   2  |      |    |
|7 | G  |   2  |      |    |
============================

请帮助我，谢谢:)

idf 的公式是idf = log(N/df) 其中N 是文档的个数，df 是文档的个数出现术语 (t) 的文档。每个句子都被视为一个文档。这是 idf 计算的例子:Document : 你在飞行时读诗吗？许多人发现在长途飞行中阅读可以放松身心

=================================================
|     Term     | Document1(D1)| D2| df |   idf  |
=================================================
|     find     |     0        | 1 |  1 |log(2/1)|
|     fly      |     1        | 1 |  2 |log(2/2)|
|     long     |     0        | 1 |  1 |log(2/1)|
|    people    |     0        | 1 |  1 |log(2/1)|
|    poetry    |     1        | 0 |  1 |log(2/1)|
|     read     |     1        | 1 |  2 |log(2/2)|
|    relax     |     0        | 1 |  1 |log(2/1)|
=================================================

最佳答案

此查询将为您提供您要查找的表:

SELECT t1.doc_id, t2.token as word, t2.token_freq as df, 
log(t1.docs/t2.token_freq) as idf
FROM 
(SELECT doc_id,count(sentence_id) as docs from tb_sentence group by doc_id) as t1,
(SELECT DISTINCT(stem) as token, doc_id, COUNT(sentence_id) as token_freq 
      FROM tb_stem GROUP BY doc_id, token) as t2
WHERE t1.doc_id = t2.doc_id

注意:原始查询中的 Unique 是 MySQL 中的保留字，会给您带来错误。

关于php - 将文档总数除以包含词干的文档数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12386129/

24

4

0

文章推荐： MySQL获取具有相同ID的表的总和

文章推荐： ios - 如何在 IOS 中将回调方法作为参数传递

文章推荐： java - Java 的 NSDictionary 方法

mysql - SQL 总数
+--------+-------+----------+-----------+ | Maker | Model | SeatType | NoOfSeats | +--------+------
javascript - jquery 总数
如何使用 jQuery 计算 p 标签之间的字符数？我尝试: DEMO html: 1 1 1 js: var tBytes = 0, tFiles = $('b').length; fo
MongoDB - 聚合框架(总数)
在 MongoDB 上运行正常的“查找”查询时，我可以通过在返回的游标上运行“计数”来获得总结果计数(不考虑限制)。因此，即使我将结果集限制为 10(例如)，我仍然可以知道结果总数为 53(再次，例如
google-sheets - 如何让条形图数据标签在谷歌表格中显示值和百分比(总数)？
在 100% 堆叠条形图中，如何让数据标签同时显示值和总百分比？示例:129 (60.3%) 当您将鼠标悬停在栏上时，它会显示在工具提示中，但在栏本身上不可见。此处示例:https://docs.g
elasticsearch - 与Kibana进行的 session 总数
我在Kibana中的总和有问题。我的用例是，我的每个服务器都会定期报告打开的 session 数。在Kibana中，我想可视化所有服务器上所有 session 的总数。但是，即使只有一台服务器联机且
javascript - 回发后保留计算的 jQuery 总数
我正在使用 jQuery 和 ASP.NET MVC 3 以及 razor View 引擎。我有几个可以在其中输入数值的文本框。我有一个标签控件，其中包含由 jQuery 计算的文本框总数。我有以
PHP/MySQL 总数(按成员)
像这样的结果: 75 Ansari 5 10 88 Koodoo 4 0 90 Koodoo 14 0 83 Koodoo 5 0
c - 如何获取使用的运算符(operator)总数？
关闭。这个问题需要details or clarity .它目前不接受答案。想改进这个问题吗？通过 editing this post 添加细节并澄清问题. 关闭 9 年前。 Improve t
php - 查找事件 session 总数
我是 PHP 的初学者，我正在为我的网站编写一些代码。我想获得当时处于事件状态的 session 总数。我知道这是一项艰巨的任务，但有可能。我该怎么做？我google了一下，有人说可以通过统计tem
mysql - 在正确的记录行显示 COUNT() 总数
1。问题陈述我很难在正确的记录行中显示 COUNT() 的总数。如何将 COUNT() 显示到正确的相应服务 2。背景我想根据stage_id 和分解到project_name 显示员工负责的项
mysql - 使用mysql在一个查询中选择多个表中的 child 总数
我整个下午都在尝试处理一个(或两个或三个)查询，以便获得三个表的所有子表的计数。看看我的设计: 用户表 id_user | name 1 | foo 2 | bar 获奖表 id_won | user
excel - VBA excel计算文件夹(和文件)总数
我有以下脚本。想要文件夹、子文件夹和文件的数量: Sub CountFiles(ByVal path1 As String) Dim fso As Object Dim subfolder As Ob
sum - 饼图标题中的 c3.js 总数
我对 c3.js 中的饼图有疑问。如何在标题中添加饼图的总数？ var title = new Array('data1.sql','data2.sql') var dtitle = new Arr
sql - 使用 CONNECT BY 在分层查询的每个级别获取计数/总数
我在这方面玩得很开心。我正在尝试针对具有递归关系(分层)的表编写查询(使用 Oracle)，并获取存储在树中每个节点及其下方的另一个表中的记录总数。另一个表只有与叶节点相关的记录。但是，我想获得树中每
angularjs - 获取您的应用程序/模块中的绑定(bind)总数
有没有办法获取模块在任何时间点使用的绑定(bind)总数(通过模板的 {{ .. }}/ng-xxx="..." 、 $scope.$watch(...) 等)？最佳答案使用 document.g
javascript - 表页脚中的 Ruby on Rails 总数
我有一个非常简单的表格，因为我现在真的只是在玩 RoR，只是收集一些数据并将其插入数据库，没有什么令人兴奋的只是基本的 CRUD。但是，我想在表格的页脚中放置一个总和字段，但我在网上找不到任何接近的东
mysql - COUNT 组的 mysql 总数
这个 mysql 查询给出了我的产品的销售数量(total 和total_staff)，按一天中的天数和小时数分组。我想要每个产品的 total 和 total_staff 的总和(不按任何内容分组，
python - 尝试计算 View 总数 - 在模板中显示空白
我正在尝试计算 For 循环中每个 user_name 赢得的总金额，并将其显示在 Amount Won: 之后。但是，当我运行下面的代码时，赢得金额后没有任何显示: - 它完全是空白的。我什至尝试将
MYSQL:View 语句产生不正确的 SUM 总数
我有 3 个表。产品价格、开票产品和订购产品的表格。我正在尝试创建一个连接这些的 View 。我想输出产品价格以及开票产品总数和订购产品总数。产品价格 id season_id product
php - 在 while 循环中添加 mysql_num_rows 总数
例如，我在另一个查询的 while 循环内的查询中有一个 mysql_num_rows 结果为 4,8,15,16,23,42。我的问题是如何计算 while 循环中的所有结果？ (共 133 个)谢

首页

博学

6Ren·AI

商城

php - 将文档总数除以包含词干的文档数