- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个包含近 100,000 条评论的数据库,我想检测最常用的单词(使用停用词来避免常见单词)。
我只想执行一次此操作,然后使用一些最流行的单词来标记包含它们的评论。
您能帮助我使用查询和 PHP 代码来执行此操作吗?谢谢!
最佳答案
我认为最简单的方法是:
keywords
(id、word)和 keywords_comments
(keyword_id、comment_id、count)
keywords
保存唯一 ID 和您在文本中找到的关键字keywords_comments
为包含该关键字的每条评论之间的每个连接存储一行。在 count
中,您将保存该关键字在评论中出现的次数。两列 keywords_id + comment_id 一起形成唯一的或直接的主键。您有以下两条评论:
Hello, how are you?!
Wow, hello. My name is Stefan.
现在您将迭代它们并按非字符分割它们。这将导致每个文本出现以下小写单词: - 第一条短信:你好,怎么样,是,你 - 第二条文字:哇,你好,我的名字,是,斯特凡
解析完其中一段文本后,您就可以将其再次插入数据库中。我猜您不想将 100.000 条评论加载到 RAM 中。
所以会这样:
keywords
(如果尚不存在)keywords_comments
) 并正确设置计数(在我们的示例中,每个单词在每个文本中只出现一次,您必须对其进行计数)。对于 100,000 条评论,您可能需要使用一个非常简单的改进,即使用计数变量或为每条评论添加一个新字段has_been_analyzed。然后您可以从数据库中逐条评论地阅读它们。
当我按 block 读取数据时,我通常使用计数变量,并且知道数据不能从我开始的方向改变(即,直到我当前所在的点为止,它都会保持一致)。然后我做了类似的事情:
SELECT * FROM table ORDER BY created ASC LIMIT 0, 100
SELECT * FROM table ORDER BY created ASC LIMIT 100, 100
SELECT * FROM table ORDER BY created ASC LIMIT 200, 100
…
考虑一下,只有当我们确定我们认为已经阅读过的地方没有要添加的日期时,这才有效。例如。使用 DESC
不起作用,因为可能会插入数据。然后整个偏移量就会中断,我们会将一篇文章读两遍,而永远不会读新文章。
如果您无法确保外部计数变量保持一致,您可以添加一个新字段analyzed,您在阅读评论后立即将其设置为 true。然后您可以随时查看哪些评论已被阅读,哪些评论尚未阅读。 SQL 查询将如下所示:
SELECT * FROM table WHERE analyzed = 0 LIMIT 100 /* Reading chunks of 100 */
只要您不并行化工作负载(使用多个客户端或线程),此方法就有效。否则,您必须确保读取+设置 true 是atomar(同步)。
关于php - 找出 MySQL/PHP 中最流行的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11267329/
找出/计算符号的宽度 panel.add(textfield,BorderLayout.SOUTH); system.out.println(textfield.getWidth()); System
嘿,所以我正在制作一个因式分解程序,我想知道是否有人可以给我任何想法,让我知道如何找到一个有效的方法来找到两个数字乘以指定数字的倍数,以及添加到指定数字。 例如我可能有 (a)(b) = 6 a +
我以以下方式将 GWT 方法导出到 native javascript: public class FaceBookGalleryEntryPoint implements EntryPoint {
通常,当您在 Web 上找到 Silverlight 代码示例时,它可能只包含一段代码,而不是使其工作所需的完整代码集。当我试图确定在 xaml 文件顶部使用什么命名空间和/或程序集声明时,这让我感到
我对 Dojo 工具包有点陌生。有些问题我想得到启发(我用谷歌搜索,但没有得到任何合适且令人满意的答案) 我已经在运行的应用程序(由另一个软件开发人员开发)中有一个 dojo.js(也许是下载的未压缩
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: How to detect which row [ tr ] is clicked? 我有一个这样的表:
我目前正在尝试找出特定应用程序使用的数据保护类别。 我的第一个方法是使用未加密的 iTunes 备份来确定所使用的保护类别。我用过this提取备份。但现在我要陷入困境了。 此外,我不太确定 iTune
我有一个 NSRangeException 错误,该错误并不总是发生(尤其是在调试时)。它是随机出现的,我无法弄清楚它来自哪里。我有很多数组操作,因此很难以这种方式消除它。 我的问题是我是否可以从调试
我有一个控制台程序,它链接到 Mac 上的 Foundation 框架。如何找到可执行文件所在的文件夹? 最佳答案 即使该工具不在 bundle 中,您仍然可以使用一些 NSBundle 方法。例如:
简单的问题是:如何找出 Cocoa 应用程序中可执行文件的位置。 请记住,在许多类 Unix 操作系统中,人们使用 PATH 环境来为其可执行文件分配首选位置,特别是当他们的系统中有同一应用程序的多个
如何找出 TGridPanel 内控件的位置(行和列索引)?我想对按钮数量使用常见的 OnClick 事件,并且需要知道按钮的 X、Y 位置。 我使用的是 Delphi 2007。 最佳答案 不幸的是
我试图找到一种方法来确定 .NET 应用程序中任意文件夹中的总磁盘空间和可用磁盘空间。文件夹中的“总磁盘空间”和“可用磁盘空间”是指如果您对其执行“dir”命令,该文件夹将报告的总磁盘空间和可用磁盘空
我希望能够通过 shell 脚本判断任何 POSIX 系统上是否存在命令。 在 Linux 上,我可以执行以下操作: if which ; then ...snip... fi 但是,Solar
如何找到不同 Haskell 函数的复杂性(以 big-O 表示)? 例如, subsequences 的复杂度是多少? ? 最佳答案 您只能通过查看代码来计算函数的确切复杂度。但是,您可以使用 cr
我试图找出我的对象占用了多少内存来查看有多少对象最终出现在 Large Object Heap 上。 (超过 85,000 字节)。 是否像为每个对象添加 4(表示 int)、添加 8(表示 long
一旦我在 Vim 中加载任何文件,它就会尝试检测该文件,并在可能的情况下用颜色突出显示它。 我想知道一个 Vim 命令,它会告诉我 Vim 认为哪个 ftplugin 或文件类型插件/文件类型会突出显
是否有可能找出 querySelector 的哪一部分与 DOM 中的特定元素匹配? 假设您有以下查询: 'h1,h2,h3,h4.custom-bg,div' 如果您使用 document.quer
我遇到一个问题,用户设置的区域设置(德语)与安装的语言 Windows(英语)不同。有没有办法发现安装的 Windows 语言与用户设置的区域设置?我应该注意的问题是我正在创建共享,并且根据区域设置设
我正在写入应用程序中的文件。我想找到该文件以检查该文件是否已正确写入(以便我可以通过 Web View 访问该文件)。这是我用来编写文件的代码: try { FileOutputStream
我有一个从 JSON 文件填充的 HashMap。键值对中的值可以是两种不同的类型 - 字符串或其他键值对。 例如: HashMap hashMap = new Map(); JSON 文件看起来有点
我是一名优秀的程序员,十分优秀!