- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想按主题对大量基于互联网的小型文章(推文、博客文章、新闻等)进行分类(100K 到 1M+)。为了实现这个目标,我一直在寻找可用于构建分类器模型的标记训练数据文档。为了使这篇文章最有用,以下是我发现的一些可能的来源:
a) www.freebase.com/internet/website/category?instances=
b) wikipedia-miner.cms.waikato.ac.nz(访问维基百科数据的工具包)
c) en.wikipedia.org/wiki/Wikipedia:Database_download
d) wiki.dbpedia.org/About(属于类别的 SKOS 格式主题关键字)
e) 互联网搜索大型文章集,然后进行聚类和手动管理
问题 1:是否有其他互联网资源可以提供带标签的培训文件?给定主题的关键字集,尤其是加权集也很有用
理想情况下,我想构建一个分类器,该分类器将返回分层类别,并且随着更多的兴趣/数据变得可用,可以在以后添加子主题详细信息。
问题 2:是否有分层结构的主题建模/分类框架(也可能是可扩展的)?一个代码示例将特别受欢迎
非常感谢
更新:
路透社语料库第 1 卷(在 RCV1-v2 上搜索)
大约 80 万篇 1990 年代后期的路透社文章,按人类分类为主题、行业和地区类别
一个学术联盟 (LDC) 分发各种语料库,
包括一份由纽约时报编译的带有约 150 万份标记文件的文件:
http://catalog.ldc.upenn.edu/LDC2008T19
最佳答案
缺乏标记数据是困扰许多机器学习应用的问题。澄清一下,您是否正在寻找一个看过您的推文、博客文章和新闻、标记来源并发布该数据库的人?或者程序进行分类是否可以接受?在前一种情况下,关键字似乎是一个很好的分类方案,但实际上并非如此:不同的人会为相同的内容选择不同的关键字。这将从根本上损害您的机器学习过程。
我的观点是,无论哪种情况,您都应该使用无监督学习(不提供标签)而不是监督学习(提供标签)——您不应该寻找带标签的数据,因为您不会找到它。即使您遇到一些已被程序标记的数据,该程序也可能使用了无监督学习方法。
我推荐你使用 scikit-learn 的 cluster 模块中定义的一些函数。这些实现了无监督学习技术。
加州大学欧文分校拥有庞大的机器学习数据集存储库。你可以在他们的一些数据集上测试你的一些自然语言处理工作。一个流行的数据集是安然电子邮件数据集。它和其他4个编译here .
UCI 数据集很棒,但它们不是 scikit-learn 格式。您将不得不转换它们。我通常使用 iris 数据集,因为它很小,您可以通过这种方式轻松地使用 scikit-learn。正如您在 example 中看到的那样线
est.fit(X)
X = iris.data
For each text collection, D is the number of documents, W is the
number of words in the vocabulary, and N is the total number of words
in the collection (below, NNZ is the number of nonzero counts in the
bag-of-words). After tokenization and removal of stopwords, the
vocabulary of unique words was truncated by only keeping words that
occurred more than ten times.
...
NYTimes news articles:
orig source: ldc.upenn.edu
D=300000
W=102660
N=100,000,000 (approx)
Attribute Information:
The format of the docword.*.txt file is 3 header lines, followed by
NNZ triples:
---
D
W
NNZ
docID wordID count
docID wordID count
docID wordID count
docID wordID count
...
docID wordID count
docID wordID count
docID wordID count
---
import numpy as np
from sklearn.cluster import KMeans
with open('docword.nytimes.txt','r') as f:
# read the header information
n_instances = int(f.readline())
n_attributes = int(f.readline())
n_nnz = int(f.readline())
# create scikit-learn X numpy array
X = np.zeros((n_instances, n_attributes))
for line in f:
doc_id, word_id, count = line.split()
X[doc_id, word_id] = count
# run sklearn clustering on nytimes data
n_clusters = 8
est = KMeans(n_clusters)
est.fit(X)
关于nltk - 互联网文章和社交媒体的层次分类+主题模型训练数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19799560/
似乎最近我看到越来越多的人开始在他们的样式表中使用 media="all" 而不是 media="screen"。 我的问题是什么时候应该使用 media="all" 而不是 media="scree
我正在尝试使用 https://www.instagram.com/developer/endpoints/media/ ,但对于我使用的每个媒体 ID,我总是得到相同的结果: { "meta
哟,我正在为服务器制作一个 MOTD 供最终用户阅读。但是,对于使用较小显示器的用户来说,它看起来非常压缩,例如,当分辨率为 1280x1040 时,它会被拉低。我不熟悉 CSS 中的 @media
我在我的 CSS 文件中使用了 @media screen 而不是 (-webkit-min-device-pixel-ratio:0)。我的问题是关于指定的值,即在这种情况下为“0”。值的变化将如何
我正在播放 Activity 中的视频,我需要显示/隐藏顶部栏 View 以及媒体 Controller 。所以当媒体 Controller 在屏幕上时,我的顶部 View 应该是可见的,当媒体 Co
我在我的 WordPress 主题中创建了一个小部件来显示图像。到目前为止,小部件可以工作,我可以输入值并在前端显示这些值。 当我选择一个小部件并将其放入小部件区域时,媒体上传按钮不起作用。在 Wor
我正在使用MWFeedParser从此处读取Youtube原子供稿:here xml代码: 我如何获取媒体的网址:缩略图? 我试图更改MWFeedParser.m 由此: else if ([cu
当使用 Python 向 Instagram API 发出 GET 请求时,传递所需的变量,如下所示 photos = api.media_search(lat=latitude, lng=longi
我正在使用与媒体播放器关联的媒体 Controller 来播放声音。问题是媒体 Controller 一旦失去焦点就会隐藏起来。我有一个按钮,按下时会播放声音,媒体 Controller 会出现在屏幕
我有一个媒体播放器并与它关联了一个媒体 Controller 。控件工作正常。 我遇到了两个问题: 当媒体 Controller 获得焦点时,即用户触摸它然后触摸屏幕的另一部分时,媒体 Control
关闭。这个问题需要debugging details .它目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and th
我在对话框中显示一个 VideoView 并向其附加一个媒体控件。 但是当我尝试点击媒体控件(播放、搜索栏等)时,对话框会消失。 媒体控制按钮不会被点击,而是将点击注册为 Dialog 的 Outsi
我目前正在使用 HTML 编写可打印文档,它将显示从数据库中提取的数据。我的想法是我将使用 HTML/CSS 使文档看起来不错,但它将专门用于打印。 文档的布局使用表格来控制数据库中数据的显示方式。
我需要在网络应用程序中打印我的报告。 我有在我的代码中。但它不应用任何样式。另一方面,如果我使用 在文档中编写 print.css 代码一切正常。 怎么了? 最佳答案 也许你在主样式之前插入打印样式
CSS html{ overflow-y:scroll; } js function showW(){ var a=($(window).width()); $('#
我编写了一个 Chrome 扩展程序,其中一个功能是您可以在您所在的页面中调出一个帮助面板,其中包含其使用指南。这个帮助面板是通过JS插入到页面中的,它的CSS都是通过$('#selector_for
我需要为 WORM 媒体开发归档软件。 这种类型的媒体允许通常的访问操作:读取、写入,但文件一旦写入,就无法修改或删除。 因为这样的媒体可能很昂贵,我想知道如何在开发阶段为测试创建一个假的 WORM
下面的这个 Activity 工作正常,但 mediaController 仅在我单击屏幕时显示。第二个问题是媒体 Controller 只显示 3 秒。我应该怎么做才能消除这个问题? public
我正在使用 VideoView 播放本地 mp4,我也在使用 MediaController。媒体控制栏未显示在我的视频剪辑下方,而是显示在屏幕中间。我使用 setAnchorView 将其附加到我的
我的布局包含 videoView 还有java代码中的Medicontrolleri: final MediaController mediaCont
我是一名优秀的程序员,十分优秀!