- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个要分类的字符串列表。我正在使用管道对象。
我实现了两个虚拟转换器:一个将数据转换为特定格式(以被另一个转换器接受),另一个将数据再次转换为其原始形式(一种逆形式)。
X 和 y 是字符串列表,假设 X=['伦敦很棒', '伦敦很美丽', '我讨厌伦敦']
和 y=['p' ,'p','n']
。我希望将 X
转换为字符串列表的列表:X=[['London is Great'], ['London is beautiful'], ['I Hat London'] ]
我的代码如下:
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.pipeline import Pipeline
from sklearn.base import TransformerMixin, BaseEstimator
vectorizer = CountVectorizer(input=u'content',
analyzer=u'word',
lowercase=True,
stop_words=cached_stopwords,
strip_accents=u'unicode',
ngram_range=(1, 3), binary=False)
estimators = [('pre_ds', PreprocessPreDS()),
('post_ds', PreprocesarPostDS()),
('vectorizer', vectorizer),
('feature_selector', SelectKBest(chi2, k=100)),
('clf', MultinomialNB())]
# create the pipeline
pipe = Pipeline(estimators)
pipe.fit(X_train, y_train)
我的服装变形金刚如下:
class PreprocessPreDS(BaseEstimator, TransformerMixin):
def __init__(self):
pass
def transform(self, X, *_):
return [[x] for x in X]
def fit(self, *_):
return self
def fit_transform(self, X, y=None, **fit_params):
return self.fit(X)
def get_params(self, deep=True):
"""
:param deep: ignored, as suggested by scikit learn's documentation
:return: dict containing each parameter from the model as name and its current value
"""
return {}
def set_params(self, **parameters):
"""
set all parameters for current objects
:param parameters: dict containing its keys and values to be initialised
:return: self
"""
for parameter, value in parameters.items():
setattr(self, parameter, value)
return self
class PreprocesarPostDS(BaseEstimator, TransformerMixin):
def __init__(self):
pass
def transform(self, X, *_):
return [x[0] for x in X]
def fit(self, *_):
return self
def fit_transform(self, X, y=None, **fit_params):
return self.fit(X)
def get_params(self, deep=True):
"""
:param deep: ignored, as suggested by scikit learn's documentation
:return: dict containing each parameter from the model as name and its current value
"""
return {}
def set_params(self, **parameters):
"""
set all parameters for current objects
:param parameters: dict containing its keys and values to be initialised
:return: self
"""
for parameter, value in parameters.items():
setattr(self, parameter, value)
return self
当我运行此代码时,出现以下错误:
Traceback (most recent call last):
File "/home/rodrigo/nb/train_nb_pipeline.py", line 449, in <module>
process(args.label, args.evaluate, args.label_all, corpus=args.corpus_path)
File "/home/rodrigo/nb/train_nb_pipeline.py", line 179, in process
pipe.fit(X_train, y_train)
File "/home/rodrigo/.env/lib/python3.5/site-packages/sklearn/pipeline.py", line 248, in fit
Xt, fit_params = self._fit(X, y, **fit_params)
File "/home/rodrigo/.env/lib/python3.5/site-packages/sklearn/pipeline.py", line 213, in _fit
**fit_params_steps[name])
File "/home/rodrigo/.env/lib/python3.5/site-packages/sklearn/externals/joblib/memory.py", line 362, in __call__
return self.func(*args, **kwargs)
File "/home/rodrigo/.env/lib/python3.5/site-packages/sklearn/pipeline.py", line 581, in _fit_transform_one
res = transformer.fit_transform(X, y, **fit_params)
File "/home/rodrigo/.env/lib/python3.5/site-packages/sklearn/feature_extraction/text.py", line 869, in fit_transform
self.fixed_vocabulary_)
File "/home/rodrigo/.env/lib/python3.5/site-packages/sklearn/feature_extraction/text.py", line 790, in _count_vocab
for doc in raw_documents:
TypeError: 'PreprocessPostDS' object is not iterable
但是,如果我从 估计器
中排除 ('pre_ds', PreprocessPreDS())
和 ('post_ds', PreprocesarPostDS())
,一切正常。
最佳答案
更改此:
def fit_transform(self, X, y=None, **fit_params):
return self.fit(X)
至:
def fit_transform(self, X, y=None, **fit_params):
return self.fit(X).transform(X)
在上面的代码中,您实际上是在返回self
。 self
是类对象(本例中为 PreprocessPreDS 和 PreprocessPostDS)。 fit_transform()
应该返回转换后的数据,而不是类对象。
关于python - 在短剧中为管道实现变压器时,对象不可迭代,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49394654/
这个问题在这里已经有了答案: Integer summing blues, short += short problem (5 个答案) 关闭 7 年前。 版本:Visual Studio Prof
我尝试执行以下代码: public class Test5 { /** * @param args */ public static void main(String[] args) {
这是我的任务,我尝试仅使用简短的 if 语句来完成此任务,我得到的唯一错误是使用“(0.5<=ratio<2 )”,除此之外,构造正确吗? Scanner scn = new Scanner(
已关闭。此问题需要 debugging details 。目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and the
我有一个简单的类型 data Day = Monday | Tuesday | Wednesday | Thursday | Friday 我是haskell的新手,所以我写==如下。 (==) :
如何实现“简短”和“详细”两个按钮? “短”应该是默认值,并显示页面的一个版本。单击“详细”按钮后,应显示该页面的另一个版本。 由于这有点难以解释,或许可以看下面的例子。 示例页面: 别管内容 需要j
有没有一种方法可以在 C# 中执行此操作,而无需为现有的每个 var 类型创建一个新方法来重载? $box = !empty($toy) : $toy ? ""; 我能想到的唯一方法是: if (t
我想使用 setInterval 创建一个节拍器。我希望能够达到 300 bpm 这样的高 bpm。即使文件足够短,可以根据需要播放多次,它也很容易 打嗝。此外,许多浏览器都存在短音频文件的问题——S
我们现在有一个正在生产中的应用程序,它会将 IAP 收据发送到我们的服务器,这些收据显然太短,而且我们的服务器没有经过 apple 的验证。 Apple 正确验证的长收据长度为 3192。短收据长度均
例如,许多软件使用的许可证 key 。我曾想过对一个序列进行密码签名,所以我可能有 4 个字节用于 ID,8 个字节用于签名,但我找不到合适的算法。 我需要的是攻击者无法轻易生成,但存储在大约 20
作为一个学生项目,我们正在构建一个机器人,它应该跑完规定的路线并捡起一个木制立方体。它的核心是一台运行 debian 的单板计算机,配备 ARM9,频率为 250MHz。因此 Controller 的
在将 short 转换为字节数组时,我在网上找到了以下解决方案,但不太理解所涉及的逻辑。 //buffer is an array of bytes, bytes[] buffer[position]
如何在 PHP namespace 环境中检查对象的类而不指定完整的命名空间类。 例如,假设我有一个对象库/实体/契约(Contract)/名称。 以下代码不起作用,因为 get_class 返回完整
我有一个 View 范围的托管 bean,其托管属性绑定(bind)到查询字符串参数。 JSF 给了我熟悉的异常: javax.faces.FacesException: Property reset
根据 this post我已经修复了对象检查器。有时代码可以很好地运行 10 个条目,使它们全部正确,有时它可以运行 5 个条目。有时它会导致条目错误。 在获取元素的内部文本时总是会失败。当它的 Y/
我正在编写一组工具,其中 C++ 应用程序使用 AES 加密标准对数据进行编码,而 Java 应用程序对其进行解码。据我所知, key 长度必须为 16 个字节。但是当我尝试使用不同长度的密码时,我遇
我有以下代码: short num_short = 1; int possible_new_short = 1; valid = 1; while (valid) { poss
因此,作为 C 的新手,我遇到了我的第一个 SIGSEGV 错误。它出现在一个简短的 C 程序中,该程序旨在成为“猜数字”游戏。它由一个比较两个数字的自定义函数和一个带有输入的 do-while 循环
我不是严格意义上的初级程序员,但我没有接受过数学以外的正规教育 - 所以这纯粹是业余爱好,可能是业余的。 我最近自己开发了一个算法来解决这个问题,但我想知道是否有任何相对简单的算法明显更高效/更快?
我正在使用短条件来区分记录列表中显示的值。 例如,如果我希望强调 ( ) 标识符大于 100 的客户的姓名,请执行以下操作: {# Displays the identifier of the c
我是一名优秀的程序员,十分优秀!