gpt4 book ai didi

python - 使用词汇对 Python 进行词袋编码

转载 作者:行者123 更新时间:2023-11-30 09:59:56 25 4
gpt4 key购买 nike

我正在尝试在我的 ML 模型中实现新列。如果在抓取的数据文本中找到特定单词,则应创建数字列。为此,我创建了一个虚拟脚本进行测试。

import pandas as pd

bagOfWords = ["cool", "place"]
wordsFound = ""

mystring = "This is a cool new place"
mystring = mystring.lower()

for word in bagOfWords:
if word in mystring:
wordsFound = wordsFound + word + " "

print(wordsFound)
pd.get_dummies(wordsFound)

输出为

    cool place
0 1

这意味着有一个句子“0”和一个“cool place”条目。这是不正确的。期望是这样的:

    cool place
0 1 1

最佳答案

找到了不同的解决方案,因为我找不到任何前进的方法。它是一种简单的直接热编码。为此,我为每个单词输入一个新列到数据框中并直接创建编码。

vocabulary = ["achtung", "suchen"]

for word in vocabulary:
df2[word] = 0

for index, row in df2.iterrows():
if word in row["title"].lower():
df2.set_value(index, word, 1)

关于python - 使用词汇对 Python 进行词袋编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59443912/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com