- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在启动一个公益项目,该项目是世界上最大的琵琶音乐收藏的Web界面,从多个角度来看,这是一个具有挑战性的收藏。这些作品主要是从1400年到1600年,但范围从1200年代中期到今天。毋庸置疑,作品的分类方式和归因者之间存在很大的差异。显然,任何严格的,由数据库强制执行的层次结构都不适用于此集合,因此我的想法转向标签。
但并非所有标签都相同。我将有代表人物/角色(创作者,翻译者,制片人等)的标签,代表代表该作品所用的乐器的标签,以及代表该作品如何被以下任一者分类的标签:几个世纪以来使用了六种不同的分类系统。
我们将使用半受控标签词汇来防止失控的标签扩散(例如del.icio.us),但是我想将标签视为属于不同的组。当编辑人员进行仪器标记等操作时,不应提供人员标记。
有人做过这样的事情吗?我有几种方法可以想到,但如果有一个完善的现有系统,则可以节省实施/调试的时间。
FWIW:这是一个Django系统,我正在研究从Django-tagging开始,然后从那里进行黑客攻击,可能添加一个category字段或...
最佳答案
早在2007年,针对django-tagging的问题就出现了#14,该问题正试图解决此问题。不知道开发人员是否计划添加此功能。
但是,在此处https://code.launchpad.net/~gregor-muellegger/django-tagging/machinetags/处有一个由GregorMüllegger维护的machinetags
的django-tagging
分支。它允许分配标签 namespace (和/或值),并方便按 namespace /值查询标签。因此,您可以使用instrument:<instrument_name>
或instrument=<instrument_name>
标记片段。
它主要与django-tagging主干同步(最新的提交是,虽然缺少一些提交)。我记得自己大约在一年前使用该分支从事某个项目。工作正常。阅读分支的文档,并就此问题发表评论以获取更多详细信息。
关于vocabulary - 标签类别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3251737/
它必须有一个名字。我在考虑退化或未使用(旧的描述性不够)。有没有人想出一些描述性的东西来调用它? 最佳答案 Deprecated (在 Java 中)或 Obsolete (在 C# 中) 关于voc
我正在启动一个公益项目,该项目是世界上最大的琵琶音乐收藏的Web界面,从多个角度来看,这是一个具有挑战性的收藏。这些作品主要是从1400年到1600年,但范围从1200年代中期到今天。毋庸置疑,作品的
以下代码使用spaCy word vectors通过首先计算词汇表(超过一百万)中所有单词的余弦相似度,然后对最相似单词列表进行排序,找到与给定单词最相似的 20 个单词。 parser = Engl
我实例化了一个 sklearn.feature_extraction.text.CountVectorizer通过 vocabulary 参数传递一个词汇表来对象,但我得到一个 sklearn.uti
跨编程语言,我遇到过类似的 composite types不同的名字: Optional / Maybe Any Variant / Sum Record / Product 人们经常使用术语 词汇类
我正在使用ColumnTransformer运行一个非常简单的实验,目的是转换列数组,在此示例中为[“a”]: from sklearn.feature_extraction.text import
我已经训练了一个主题分类模型。然后,当我要将新数据转换为向量进行预测时,就会出错。它显示“NotFittedError:CountVectorizer - 词汇未安装。”但是,当我通过将训练数据拆分为
我正在尝试使用 scikit-learn/pandas 构建一个情感分析器。构建和评估模型有效,但尝试对新样本文本进行分类却行不通。 我的代码: import csv import pandas as
我正在尝试使用 scikit-learn/pandas 构建情绪分析器。构建和评估模型有效,但尝试对新示例文本进行分类却行不通。 我的代码: import csv import pandas as p
我有一个使用 Python 的 Gensim 库训练的 Word2vec 模型。我有一个标记化列表如下。词汇量是 34,但我只给出了 34 个中的几个: b = ['let', 'know', '
是否可以提前知道 CountVectorizer 是否会抛出 ValueError: empty vocabulary? 基本上,我有一个文档语料库,我想过滤掉那些无法通过 CountVectoriz
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 6 年前。
我在这里阅读了所有相关问题,但找不到有效的解决方案: 我的分类器创建: class StemmedTfidfVectorizer(TfidfVectorizer): def build_ana
使用 python 训练 word2vec 模型后 gensim ,如何找到模型词汇表中的单词数? 最佳答案 在最近的版本中,model.wv 属性包含单词和向量,并且 can 本身可以报告长度 -
我需要有目的地再创建 2 个表:一个表将存储标签和类别数据(类别可以有层次结构,但标签没有),另一个表存储标签、类别和内容之间的关系。但我对那两张 table 的名称很困惑。我确实是网络开发的新手。经
我正在尝试使用 Spark 的 MLLib 实现词向量化。我按照给出的例子 here . 我有一堆句子,我想将它们作为输入来训练模型。但我不确定这个模型是否采用句子或仅将所有单词作为字符串序列。 我的
在 Keras 文档中的嵌入 https://keras.io/layers/embeddings/ ,对 mask_zero 的解释是 mask_zero: Whether or not the i
我尝试使用 word2vec,但在尝试对任何单词执行任何操作时都会出错。这似乎是一个编码问题,这是我所做的: 初始化word2vec: import gensim, logging logging.b
我正在使用word2vec,我训练的wiki语料库,如果我输入的单词不在word2vec的词汇表中怎么办? 测试一下: model = word2vec.Word2Vec.load('model/'
目标:预测原始数据的标签 背景:我构建了一个 SVM 分类器 我正在使用以下代码: 0) 导入模块 import numpy as np from sklearn import cro
我是一名优秀的程序员,十分优秀!