tags - 如何自动标记所需的内容，算法和建议-6ren

tags - 如何自动标记所需的内容，算法和建议

转载作者：行者123 更新时间：2023-12-03 09:53:12

25

4

我正在使用一些非常大型的报纸文章数据库，它们都存在于MySQL数据库中，并且我可以全部查询。

我现在正在寻找方法来帮助我用一些描述性标签来标记这些文章。

所有这些文章都可以通过如下所示的URL访问:

http://web.site/CATEGORY/this-is-the-title-slug

因此，至少我可以使用类别来确定我们正在使用的内容类型。但是，我也想基于文章文本进行标记。

我最初的方法是这样做的:

获取所有文章

获取所有单词，删除所有标点符号，按空格分割，然后按出现次数进行计数

分析它们，并过滤掉常见的非描述性词，例如“它们”，“I”，“此”，“这些”，“它们的”等。

当所有常用词都被过滤掉时，剩下的唯一是具有标签值(value)的词。

但是，事实证明这是一项相当手动的任务，而不是一种非常漂亮或有用的方法。

这也受到单词或名称被空格分隔的问题的困扰，例如，如果1.000文章包含名称“John Doe”，而1.000文章包含名称“John Hanson”，则我只会得到单词“John”而不是他的名字和姓氏。

最佳答案

自动标记文章确实是一个研究问题，当其他人已经完成许多工作时，您可以花费大量时间重新发明轮子。我建议使用现有的自然语言处理工具箱之一，例如NLTK。

首先，我建议您考虑实现一个合适的Tokeniser(比按空格分割要好得多)，然后研究Chunking和Stemming算法。

您可能还需要计算n-grams的频率，即一系列单词，而不是单个单词。这将解决“单词被空格分隔”的问题。 NLTK之类的工具包具有为此内置的功能。

最后，随着迭代地改进算法，您可能希望对数据库的一个随机子集进行训练，然后尝试使用该算法如何标记其余文章集，以查看其效果如何。

关于tags - 如何自动标记所需的内容，算法和建议，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6039238/

25

4

0

文章推荐： sql-server - 链接的 SQL Server 之间的安全通信

文章推荐： salesforce - 编译错误 : DML operation DELETE not allowed on User

文章推荐： regex - 如何衡量字符串之间的相似度？

java - 所需 bundle 的状态已解决而不是 Activity
我有一个依赖于包 B 的包 A。当包 A 中的代码运行并访问包 B 中的类时，包 B 的状态将被解析 (4)，而不是 Activity (32) 和包 B 的激活器也没跑好。我认为 bundle B
html - 所需 CSS 中的像素宽度比我预期的长 10px。为什么？
这个问题在这里已经有了答案: How to remove the space between inline/inline-block elements? (41 个回答) 关闭 7 年前。
java - native 库，Java OpenAL 所需
我正在尝试使用 Java OpenAL 库。我在导入名为 libsoft_oal.so 的 native 库时遇到问题。 Java OpenAL 依赖于 OpenAL 软实现。我尝试根据他们在 git
ruby - 所需 ruby 文件的 Sidekiq 错误
我正在尝试启动我的应用程序。是一个 unicorn +工头+sinatra的应用。这是我的 config.ru 文件: require "rubygems" require "sinatra" Bu
javascript - 仅获取所有选项中间值，使用 jquery 选择(所需)类
我有一个下拉列表，其中包含一些从数据库表中检索的值，我想要的是当单击按钮时它应该只获得选项标签的中间值，但只有那些类名为“get_this”的选项标签并离开那些选项，如果他们没有这个类预期输出:值
php - 所需 php 中的 Javascript 文件不起作用，但直接在文件中可以
我有一个index.php文件，需要一个通用的head.php文件，head.php文件中有几个Javascript文件，当这样尝试时，代码在源代码中看起来很好，但文件却不是实际上对文档做任何事情。
android insmod init_module 失败(所需 key 不可用)
有人能帮帮我吗？我已经像这样运行了 imsmod: $ insmod /data/mm/mmdev.ko epoll_rate=100 但是我得到一个错误: insmod: init_module
php - 在 Notepad++ 中打开 PHP 所需/包含文件的快速方法
是否有键盘快捷键或插件可以在 Notepad++ 中打开 PHP 所需或包含的文件？我知道，在 Dreamweaver 中，执行此操作的命令是 Ctrl+D，但我似乎无法在 Notepad++ 中找到
javascript - 显示/隐藏点击 div，所需 : one item displayed at a time
我已经用 js 设置了一个显示/隐藏 div，但我很难弄清楚如何一次显示一个 div。目前发生的情况是，除非我再次单击原始链接来关闭该 div，否则每个 div 都会显示。 http://www.li
elasticsearch - 属性:[机架]上的节点上的碎片太多，每个属性:[1]所需，节点数:[2]，剩余的:[0]
当我尝试将未分配的辅助分片分配给节点时出现错误。 { "error": { "root_cause": [ { "type": "remote_transpor
c++ -/usr/bin/ld : warning: abc. 所以，找不到 xyz.so 所需(尝试使用 -rpath 或 -rpath-link)”
我正在构建一个 C++ 应用程序，使用 Netbeans 6.9 作为我的 IDE。我有一个 C++ 库，它是一个纯 C 库的包装器。我已将文件正确添加到项目中(使用添加库文件选项)。这是 g++

首页

博学

6Ren·AI

商城

tags - 如何自动标记所需的内容，算法和建议