nltk - 互联网文章和社交媒体的层次分类+主题模型训练数据-6ren

nltk - 互联网文章和社交媒体的层次分类+主题模型训练数据

转载作者：行者123 更新时间：2023-12-04 15:44:54

39

4

我想按主题对大量基于互联网的小型文章(推文、博客文章、新闻等)进行分类(100K 到 1M+)。为了实现这个目标，我一直在寻找可用于构建分类器模型的标记训练数据文档。为了使这篇文章最有用，以下是我发现的一些可能的来源:

a) www.freebase.com/internet/website/category?instances=
b) wikipedia-miner.cms.waikato.ac.nz(访问维基百科数据的工具包)
c) en.wikipedia.org/wiki/Wikipedia:Database_download
d) wiki.dbpedia.org/About(属于类别的 SKOS 格式主题关键字)
e) 互联网搜索大型文章集，然后进行聚类和手动管理

问题 1:是否有其他互联网资源可以提供带标签的培训文件？给定主题的关键字集，尤其是加权集也很有用

理想情况下，我想构建一个分类器，该分类器将返回分层类别，并且随着更多的兴趣/数据变得可用，可以在以后添加子主题详细信息。

问题 2:是否有分层结构的主题建模/分类框架(也可能是可扩展的)？一个代码示例将特别受欢迎

非常感谢

更新:

路透社语料库第 1 卷(在 RCV1-v2 上搜索)
大约 80 万篇 1990 年代后期的路透社文章，按人类分类为主题、行业和地区类别

一个学术联盟 (LDC) 分发各种语料库，
包括一份由纽约时报编译的带有约 150 万份标记文件的文件:
http://catalog.ldc.upenn.edu/LDC2008T19

最佳答案

缺乏标记数据是困扰许多机器学习应用的问题。澄清一下，您是否正在寻找一个看过您的推文、博客文章和新闻、标记来源并发布该数据库的人？或者程序进行分类是否可以接受？在前一种情况下，关键字似乎是一个很好的分类方案，但实际上并非如此:不同的人会为相同的内容选择不同的关键字。这将从根本上损害您的机器学习过程。

我的观点是，无论哪种情况，您都应该使用无监督学习(不提供标签)而不是监督学习(提供标签)——您不应该寻找带标签的数据，因为您不会找到它。即使您遇到一些已被程序标记的数据，该程序也可能使用了无监督学习方法。

我推荐你使用 scikit-learn 的 cluster 模块中定义的一些函数。这些实现了无监督学习技术。

加州大学欧文分校拥有庞大的机器学习数据集存储库。你可以在他们的一些数据集上测试你的一些自然语言处理工作。一个流行的数据集是安然电子邮件数据集。它和其他4个编译here .

UCI 数据集很棒，但它们不是 scikit-learn 格式。您将不得不转换它们。我通常使用 iris 数据集，因为它很小，您可以通过这种方式轻松地使用 scikit-learn。正如您在 example 中看到的那样线

est.fit(X)

只需要数据数组 X 而不需要标签 Y。

X = iris.data

通过 4_features numpy 数组为 X 分配 150_instances。您需要这种形式的 UCI 数据。让我们看看纽约时报的新闻文章。

来自 UCI 链接说明的 readme.txt

For each text collection, D is the number of documents, W is the
number of words in the vocabulary, and N is the total number of words
in the collection (below, NNZ is the number of nonzero counts in the
bag-of-words). After tokenization and removal of stopwords, the
vocabulary of unique words was truncated by only keeping words that
occurred more than ten times.
...
NYTimes news articles:
orig source: ldc.upenn.edu
D=300000
W=102660
N=100,000,000 (approx)

也就是说，您的 X 将具有 300000_instances 乘以 102660_features 的形状。注意属性格式:

Attribute Information:

The format of the docword.*.txt file is 3 header lines, followed by
NNZ triples:
---
D
W
NNZ
docID wordID count
docID wordID count
docID wordID count
docID wordID count
...
docID wordID count
docID wordID count
docID wordID count
---

此数据位于 docword.nytimes.txt 数据文件中。一些代码来阅读它并运行聚类算法:

import numpy as np
from sklearn.cluster import KMeans
with open('docword.nytimes.txt','r') as f:
    # read the header information
    n_instances = int(f.readline())
    n_attributes = int(f.readline())
    n_nnz = int(f.readline()) 

    # create scikit-learn X numpy array
    X = np.zeros((n_instances, n_attributes))
    for line in f:
        doc_id, word_id, count = line.split() 
        X[doc_id, word_id] = count

# run sklearn clustering on nytimes data
n_clusters = 8
est = KMeans(n_clusters)
est.fit(X)

不幸的是，这需要大量内存。实际上，内存比我的机器多，所以我无法测试这段代码。不过，我想您的应用程序域可以与这个相媲美。您将不得不研究一些降维技术，或者一次只查看较小的单词子集。

我希望这有帮助。随时给我留言。

关于nltk - 互联网文章和社交媒体的层次分类+主题模型训练数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19799560/

39

4

0

文章推荐： ocr - 使用 HMM 进行离线字符识别

文章推荐：正则表达式识别数字，除非被 "[" "]"包围

html - 媒体=全部 vs 媒体=屏幕
似乎最近我看到越来越多的人开始在他们的样式表中使用 media="all" 而不是 media="screen"。我的问题是什么时候应该使用 media="all" 而不是 media="scree
instagram - 媒体 Instagram 端点不起作用 - 媒体 ID 无效
我正在尝试使用 https://www.instagram.com/developer/endpoints/media/ ，但对于我使用的每个媒体 ID，我总是得到相同的结果: { "meta
HTML/CSS @媒体
哟，我正在为服务器制作一个 MOTD 供最终用户阅读。但是，对于使用较小显示器的用户来说，它看起来非常压缩，例如，当分辨率为 1280x1040 时，它会被拉低。我不熟悉 CSS 中的 @media
CSS 媒体查询(@媒体)
我在我的 CSS 文件中使用了 @media screen 而不是 (-webkit-min-device-pixel-ratio:0)。我的问题是关于指定的值，即在这种情况下为“0”。值的变化将如何
机器人:媒体 Controller
我正在播放 Activity 中的视频，我需要显示/隐藏顶部栏 View 以及媒体 Controller 。所以当媒体 Controller 在屏幕上时，我的顶部 View 应该是可见的，当媒体 Co
小部件中的 Wordpress 媒体 uploader
我在我的 WordPress 主题中创建了一个小部件来显示图像。到目前为止，小部件可以工作，我可以输入值并在前端显示这些值。当我选择一个小部件并将其放入小部件区域时，媒体上传按钮不起作用。在 Wor
iphone - 标记内的MWFeedParser标记(媒体:缩略图)
我正在使用MWFeedParser从此处读取Youtube原子供稿:here xml代码: 我如何获取媒体的网址:缩略图？我试图更改MWFeedParser.m 由此: else if ([cu
Instagram API/媒体/搜索最大计数参数？
当使用 Python 向 Instagram API 发出 GET 请求时，传递所需的变量，如下所示 photos = api.media_search(lat=latitude, lng=longi
Android 媒体 Controller 在失去焦点时隐藏
我正在使用与媒体播放器关联的媒体 Controller 来播放声音。问题是媒体 Controller 一旦失去焦点就会隐藏起来。我有一个按钮，按下时会播放声音，媒体 Controller 会出现在屏幕
android - 媒体 Controller 隐藏但媒体播放器继续播放
我有一个媒体播放器并与它关联了一个媒体 Controller 。控件工作正常。我遇到了两个问题: 当媒体 Controller 获得焦点时，即用户触摸它然后触摸屏幕的另一部分时，媒体 Control
java - 媒体 Controller 不工作
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and th
对话框中的 Android 媒体 Controller
我在对话框中显示一个 VideoView 并向其附加一个媒体控件。但是当我尝试点击媒体控件(播放、搜索栏等)时，对话框会消失。媒体控制按钮不会被点击，而是将点击注册为 Dialog 的 Outsi
html - 打印时隐藏 HTML 媒体
我目前正在使用 HTML 编写可打印文档，它将显示从数据库中提取的数据。我的想法是我将使用 HTML/CSS 使文档看起来不错，但它将专门用于打印。文档的布局使用表格来控制数据库中数据的显示方式。
css - 媒体 ="print"外部链接不起作用
我需要在网络应用程序中打印我的报告。我有在我的代码中。但它不应用任何样式。另一方面，如果我使用在文档中编写 print.css 代码一切正常。怎么了？最佳答案也许你在主样式之前插入打印样式
jquery - css 媒体 - 屏幕宽度不一致
CSS html{ overflow-y:scroll; } js function showW(){ var a=($(window).width()); $('#
css - 媒体 ="all"CSS 是否会覆盖所有内容？
我编写了一个 Chrome 扩展程序，其中一个功能是您可以在您所在的页面中调出一个帮助面板，其中包含其使用指南。这个帮助面板是通过JS插入到页面中的，它的CSS都是通过$('#selector_for
linux - 模拟 WORM 媒体
我需要为 WORM 媒体开发归档软件。这种类型的媒体允许通常的访问操作:读取、写入，但文件一旦写入，就无法修改或删除。因为这样的媒体可能很昂贵，我想知道如何在开发阶段为测试创建一个假的 WORM
Android 媒体 Controller 短时间显示
下面的这个 Activity 工作正常，但 mediaController 仅在我单击屏幕时显示。第二个问题是媒体 Controller 只显示 3 秒。我应该怎么做才能消除这个问题？ public
android - 媒体 Controller 定位
我正在使用 VideoView 播放本地 mp4，我也在使用 MediaController。媒体控制栏未显示在我的视频剪辑下方，而是显示在屏幕中间。我使用 setAnchorView 将其附加到我的
android - 媒体 Controller 不工作
我的布局包含 videoView 还有java代码中的Medicontrolleri: final MediaController mediaCont

首页

博学

6Ren·AI

商城

nltk - 互联网文章和社交媒体的层次分类+主题模型训练数据