gpt4 book ai didi

machine-learning - 如何在 Python 中将文本数据编码为 ML 算法的特征?

转载 作者:行者123 更新时间:2023-11-30 09:49:43 25 4
gpt4 key购买 nike

我有一个 csv 文件,其中的列填充了文本数据。如何用恒定数据替换它们,以便我可以在该数据集上应用机器学习算法。数据集示例:日期、名称、颜色名称、用户名和产品名称。

最佳答案

您正在尝试对数据进行分类。请尝试以下操作:

示例1:对于颜色名称和产品名称,假设只有几种类型,可以映射如下:

# Color_name mapping
color_mapping = {"red": 1, "yellow": 2, "blue": 3, "green": 4, "pink": 5}
dataset['color_name'] = dataset['color_name'].map(color_mapping)
# Product_name mapping
product_mapping = {"product1": 1, "product2": 2, "product3": 3, "product4": 4, "product5": 5}
dataset['product_name'] = dataset['product_name'].map(product_mapping)

示例2:对于user_name,如果不能按上述分类,可以执行以下操作:

尝试从姓名中提取头衔。

例如:可以提取以先生、女士、夫人等头衔开头的姓名并进行相应分组

title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3}
dataset['user_name'] = dataset['user_name'].map(title_mapping)

示例 3:对于日期,您可以将它们分组为属于不同年份或月份或某个特定时期等的日期。

关于machine-learning - 如何在 Python 中将文本数据编码为 ML 算法的特征?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47284575/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com