python - 线性模型的系数太大/太低-6ren

python - 线性模型的系数太大/太低

转载作者：太空宇宙更新时间：2023-11-03 14:12:53

26

4

在对一袋词实现线性回归模型时，python 返回了非常大/非常低的值。 train_data_features 包含训练数据中的所有单词。训练数据包含大约 400 条评论，每条评论少于 500 个字符，排名在 0 到 5 之间。之后，我为每个文档创建了一个词袋。在尝试对所有词袋的矩阵进行线性回归时，

from sklearn import linear_model 
clf = linear_model.LinearRegression()
clf.fit(train_data_features, train['dim_hate'])

coef = clf.coef_
words = vectorizer.get_feature_names()

for i in range(len(words)):
    print(str(words[i]) + " " + str(coef[i]))

结果好像很奇怪(只是4000中3的例子)。它显示了为单词创建的回归函数的因素。

btw -0.297473967075
land 54662731702.0
landesrekord -483965045.253

我很困惑，因为目标变量在 0 和 5 之间，但因子却如此不同。他们中的大多数都有非常高/低的数字，我只期待像 btw 中的一个这样的值。

你知道为什么结果是这样吗？

最佳答案

可能是您的模型对数据过度拟合，因为它试图与输出完全匹配。您的担心和怀疑是对的，因为这意味着您的模型可能过度拟合您的数据，并且不会很好地泛化到新数据。您可以尝试以下两种方法之一:

运行 LinearRegression(normalize=True) 并查看它是否对系数有帮助。但这只是一个临时解决方案。
使用Ridge regression反而。它基本上是在进行线性回归，除了会因系数过大而受到惩罚。

关于python - 线性模型的系数太大/太低，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35832713/

26

4

0

文章推荐： python - 合并两个共享相同键值的字典 :Value

文章推荐： python - 使用不同的分隔符拆分列

文章推荐： python - 为什么我不能导入 folium python 包？

python - 线性模型的系数太大/太低
在对一袋词实现线性回归模型时，python 返回了非常大/非常低的值。 train_data_features 包含训练数据中的所有单词。训练数据包含大约 400 条评论，每条评论少于 500 个字符
ios - 当导航栏不透明时 UIViewController View 太低
当我将 navigationBarHidden 设置为 NO 时，但我使导航栏半透明，当我使用 initWithFrame: 初始化它时，我会打印该框架>，它是 {{0, 0}, {320, 504}
scikit-learn - sklearn 随机森林 : . oob_score_ 太低？
我正在寻找随机森林的应用程序，我在 Kaggle 上发现了以下知识竞赛: https://www.kaggle.com/c/forest-cover-type-prediction . 遵循以下建议
elasticsearch - elasticsearch:elasticsearch过程的最大文件描述符[1024]太低，至少增加到[65536]
当我尝试运行logging aggregation时，我发现由elasticsearch生成的以下错误: [2018-02-04T13:44:04,259][INFO ][o.e.b.Bootstra
elasticsearch - elasticsearch 进程的最大文件描述符 [4096] 太低，至少增加到 [65536]
使用 Ubuntu 16.10 docker 1.12.3 docker Composer 1.8官方elastic docker镜像elastic最新标签 docker-compose.yml ve
elasticsearch - 最大虚拟内存区域 vm.max_map_count [65530] 太低，至少增加到 [262144]
启动 sonarqube 时出现此错误。我试过: sudo sysctl -w vm.max_map_count=262144 哪个返回: sysctl: setting key "vm.max_m
elasticsearch - 启动 ELASTICSEARCH 时，elasticsearch 进程的最大文件描述符 [4096] 太低
当我启动 elasticseach 时，我收到此警告: [2018-08-05T15:04:27,370][WARN ][o.e.b.BootstrapChecks ] [bDyfvVI] ma
Elasticsearch:最大虚拟内存区域 vm.max_map_count [65530] 太低，至少增加到 [262144]
我对 ElasticSearch 的 systemd 配置有疑问。 [Unit] Description=platform-elasticsearch After=syslog.target netw
android - 使用 MediaCodec 录制 720p 视频但编码视频的 fps 太低
我写了一个视频录制demo，我的实现和Grafika的ContinuousCaptureActivity是一样的。在 ContinuousCaptureActivity.java 中，作者在 Sur
docker - EKS-Kubernetes-ES-错误:elasticsearch过程的最大文件描述符[4096]太低，至少增加到[65536]
在使用Docker将EKS节点中的18.09从18.06降级为yum之后，该节点上的ES pod进入崩溃循环，日志中出现以下错误: max file descriptors [4096] for el
ios - 使用 UIScreen.main.bounds 作为 UIWindow 框架时 UINavigationBar 太低
我正在构建一个 iOS 应用程序，部署目标 12.1，swift 4.2。该应用程序使用容器 View ，并在主屏幕顶部有一个导航栏，最好位于状态栏下方。在启动屏幕 Storyboard中，我将 Na
MongoDB:软 rlimits 太低。 rlimits 设置为 27774 个进程，64000 个文件。进程数应至少为 32000:文件数的 0.5 倍
我有一个在 14.04.05 LTS 上运行的 Ubuntu 服务器。此服务器上还安装了几个 ugins mongodb 应用程序。 MongoDB版本为3.4.2 我正在尝试增加 mongodb
docker-compose ERROR : bootstrap checks failed | max > virtual memory areas vm. max_map_count [65530] 太低，增加到 > 至少 [262144]
我收到此错误: es01 | {"type": "server", "timestamp": "2019-09-18T17:31:42,267+0000", "level": "INFO", "com
android - 错误 :The SDK Build Tools revision (23. 0.3) 对于项目 ':app' 太低。最低要求是 25.0.0
标题重复，但我的问题不同。同一个项目运行良好，允许在其上构建 buildToolsVersion 23.0.3 在我同事的系统上。据我所知，只有 android studio 版本不同。如果我没有将

首页

博学

6Ren·AI

商城

python - 线性模型的系数太大/太低