python - 你需要在 sklearn 中缩放 Vectorizers 吗？-6ren

python - 你需要在 sklearn 中缩放 Vectorizers 吗？

转载作者：行者123 更新时间：2023-11-28 21:10:24

29

4

我有一组自定义特征和一组使用 Vectorizers 创建的特征，在本例中为 TfidfVectorizer。

我所有的自定义特征都是简单的 np.arrays(例如 [0, 5, 4, 22, 1])。我正在使用 StandardScaler 来扩展我的所有功能，正如您在我的“自定义管道”之后通过调用 StandardScaler 在我的管道中看到的那样。问题是是否有办法或需要扩展我在“vectorized_pipeline”中使用的 Vectorizers。在向量化器上应用 StandardScaler 似乎不起作用(我收到以下错误:“ValueError:无法居中稀疏矩阵”)。

还有一个问题，在我将所有特征加入 FeatureUnion 后缩放我的所有特征是否明智，或者我是否分别缩放它们中的每一个(在我的示例中，通过分别调用“pos_cluster”和“stylistic_features”中的缩放器而不是在它们都加入后调用它)，这样做的更好做法是什么？

from sklearn.pipeline import FeatureUnion, Pipeline
from sklearn import feature_selection
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC

X = ['I am a sentence', 'an example']
Y = [1, 2]
X_dev = ['another sentence']

inner_scaler = StandardScaler()
# classifier
LinearSVC1 = LinearSVC(tol=1e-4,  C = 0.10000000000000001)

# vectorizers
countVecWord = TfidfVectorizer(ngram_range=(1, 3), max_features=2000, analyzer=u'word', sublinear_tf=True, use_idf = True, min_df=2, max_df=0.85, lowercase = True)
countVecWord_tags = TfidfVectorizer(ngram_range=(1, 4), max_features= 1000, analyzer=u'word', min_df=2, max_df=0.85, sublinear_tf=True, use_idf = True, lowercase = False)


pipeline = Pipeline([
    ('union', FeatureUnion(
            transformer_list=[

            ('vectorized_pipeline', Pipeline([
                ('union_vectorizer', FeatureUnion([

                    ('stem_text', Pipeline([
                        ('selector', ItemSelector(key='stem_text')),
                        ('stem_tfidf', countVecWord)
                    ])),

                    ('pos_text', Pipeline([
                        ('selector', ItemSelector(key='pos_text')),
                        ('pos_tfidf', countVecWord_tags)
                    ])),

                ])),
                ])),


            ('custom_pipeline', Pipeline([
                ('custom_features', FeatureUnion([

                    ('pos_cluster', Pipeline([
                        ('selector', ItemSelector(key='pos_text')),
                        ('pos_cluster_inner', pos_cluster)
                    ])),

                    ('stylistic_features', Pipeline([
                        ('selector', ItemSelector(key='raw_text')),
                        ('stylistic_features_inner', stylistic_features)
                    ]))

                ])),
                    ('inner_scale', inner_scaler)
            ])),

            ],

            # weight components in FeatureUnion
            # n_jobs=6,

            transformer_weights={
                'vectorized_pipeline': 0.8,  # 0.8,
                'custom_pipeline': 1.0  # 1.0
            },
    )),

    ('clf', classifier),
    ])

pipeline.fit(X, Y)
y_pred = pipeline.predict(X_dev)

最佳答案

要事第一:

错误“无法居中稀疏矩阵”

原因很简单 - StandardScaler 有效地应用特征转换:

f_i = (f_i - mean(f_i)) / std(f_i)

这对于稀疏矩阵将导致密集矩阵，因为 mean(f_i) 将是非零的(通常)。在实践中，只有等于其均值的特征才会最终为零。 Scikit learn 不想这样做，因为这是对你的数据的巨大修改，这可能会导致代码的其他部分失败，大量使用内存等。如何处理？如果您真的想这样做，有两种选择:

通过 .toarray() 对您的矩阵进行致密化，这将需要大量内存，但会为您提供您所期望的结果
创建没有均值的 StandardScaler，因此 StandardScaler(with_mean = False) 将应用 f_i = f_i/std(f_i)，但会保留数据的稀疏格式.

需要scalind吗？

这完全是另一个问题 - 通常，(任何形式的)缩放只是一种启发式。这不是您必须应用的东西，也不能保证它会有所帮助，当您不知道您的数据是什么样子时，这只是一件合理的事情。 “智能”矢量化器，例如 tfidf 实际上已经在这样做了。 idf 转换应该创建一种合理的数据缩放。不能保证哪个更好，但总的来说，tfidf 应该足够了。特别是考虑到它仍然支持稀疏计算，而 StandardScaler 不支持这一事实。

关于python - 你需要在 sklearn 中缩放 Vectorizers 吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36675022/

29

4

0

文章推荐： python - 无法在 selenium 上找到部分 ID

文章推荐： ios - 在 tableview 末尾添加一个项目作为可滚动项目

文章推荐： ios - 存折自动化测试

文章推荐： ios - UITableView 编辑模式不显示删除按钮

javascript - 使用 Javascript 缩放/缩放/调整多个图像大小的最佳方法？
我在 div 和 jquery ui slider 中有一个图像列表，当用户滑动栏时，图像应该调整大小/缩放(无论你想怎么调用它)，我尝试选择所有图像并更改 css 的宽度和使用 jquery 的高度
javascript - 工具提示随 d3 地理 map 缩放(缩放)
我正在制作一张具有缩放和平移功能的世界地图。我在某些城市上画了圆圈，圆圈的半径由数据决定。当鼠标悬停在这些圆圈上时，将出现一个工具提示来显示数据。代码结构为 //在此选择上调用缩放行为 - 让我们调
jQuery UI slider 小部件 + fancybox + 缩放/缩放
我正在使用 jquery UI slider (http://jqueryui.com/slider/)。我需要对整个站点进行缩放。使用 css 样式在 IE+Chrome im 中缩放 - “缩放
ios - 如何将 UIView 缩放(缩放)到给定的 CGPoint
我花了很多时间试图找到一种使用 CGAffineScale 将 View 转换为给定点的方法，包括摆弄 anchor 、在转换前后移动 View 的中心以及全面的谷歌搜索。我知道使用 UIScroll
android - 使用 onTouchEvent Android 旋转、缩放/缩放、拖动位图
我希望能够用手指旋转和缩放/缩放我的位图，我已经为此寻找了所有示例项目，但它们都与我的代码不匹配。这是我的 onTouchListener 代码。 public class MyView extend
html - 使用 CSS3 变换 scale() 缩放/缩放 DOM 元素及其占用的空间
在我的页面中间，我有一个 div 元素，其中包含一些内容(其他 div、图像等)。 before something inside another something
javascript - 缩放/缩放 Div 后在 Google Maps API v3 上使用绘图管理器？
我一直在尝试使用 google maps API V3 的绘图管理器(绘制矩形)。使用 -webkit-transform 缩放谷歌地图 Canvas (包含 div)后像这样 var transf
ios模拟器窗口缩放/缩放
这个问题在这里已经有了答案: How to resize the iPhone/iPad Simulator? (12 个答案) 关闭 5 年前。我正在编写 iOS 应用我使用 Xcode 6.
docker - 自动化微服务负载平衡/缩放
这几天一直在研究微服务，我想知道人们是如何着手自动化负载平衡和扩展这些东西的？我心中有一个特定的场景，我想实现什么，但不确定是否可行，或者我的想法有误。就这样吧…… 假设我有一个由 3 台名为 A、
FFMPEG 缩放、缩放和连接过滤器
我正在使用 ffmpeg for android 来制作 mp4 格式的视频。我无法让这个命令在 FFMPEG 中工作，基本上我正在尝试添加两个图像，缩放它们，添加缩放效果，最后将结果连接到一个视频文
opengl - 缩放、平移和旋转如何工作？
使用 OpenGL 我正在尝试绘制我校园的原始 map 。谁能向我解释一下平移、缩放和旋转通常是如何实现的？例如，通过平移和缩放，这仅仅是我调整我的视口(viewport)吗？所以我绘制并绘制了构
iphone - 缩放/旋转界面中的按钮
我需要在 iphone sdk 界面生成器中将按钮旋转 30 度，该怎么做？最佳答案您无法在 Interface Builder 中执行此操作，但代码非常简单。确保您已将 IB 中的按钮连接到
javascript - 检测触摸设备捏合程度(缩放)
假设默认级别等于“1”，是否可以检测触摸设备的捏合(缩放)级别？原因是我希望根据捏合级别禁用页面元素(显示:无)。如果可以将其放在一个设置缩放级别值的函数中，那就太好了，例如: var ZOOM =
javascript - 在鼠标位置缩放/缩放
我正在努力找出并确定如何根据这个例子放大我的鼠标位置。 (https://stackblitz.com/edit/js-fxnmkm?file=index.js) let node, scal
ios - UIWebView 缩放
我已将 UIWebView 的“scalesPageToFit”属性设置为 YES。它正在缩放，但是当页面加载时，内容的字体很小，不捏就无法阅读。我们可以将缩放比例设置为默认值吗？最佳答案这更多
mobile - 如何在图像上进行捏合/缩放
我仍在学习 jQuery mobile 的技巧，并且在 data-role="page"上放大和缩小图片/图像时遇到问题。有没有办法使用 jquery mobile 在 iPhone 上的图像上进行捏
python - 缩放/旋转成对平方欧氏距离的矢量化计算
给定一组 n 个维度为 d 的向量，存储在 (n,d) 数组中，以及第二组 m 相同维度的向量(存储在 (m,d) 数组中)我想计算向量之间的平方点距离，由大小为的某个矩阵 A 缩放>(d,d)。
jQuery 悬停功能缩放/缩放
我想知道是否有人可以指出我正确的方向。我使用 CSS3 过渡创建了缩放效果。将鼠标悬停在该对象上，它会转换为更大的版本。这看起来很棒并且效果很棒，但问题是这种效果在 IE 中不起作用，所以我需要在
javascript - 缩放/取消缩放时标记从其位置移动
mapbox-gl-js 版本:0.38.0在 ionic 2.2.11 上通过 npm repo 使用正如您在这张 gif 上看到的 https://giphy.com/gifs/ionic-an
android - 缩放 Activity
所以我花了几个小时在网上搜索帮助，但所有论坛和文档都没有向我正确解释我应该采取的最佳方式。目前我有一个具有 XML 相对布局的 Activity (背景设置为 map 图片)，我想实现多手势缩放功能

首页

博学

6Ren·AI

商城