gpt4 book ai didi

python - 使用 langdetect 计算 pandas 数据框中的语言频率

转载 作者:行者123 更新时间:2023-12-01 08:26:42 25 4
gpt4 key购买 nike

我想查找推文数据集中不同语言的频率。我最终只想使用英语推文,但也想找出其他语言的频率。

我已经使用 langDetect 检测了数据集中推文的语言,现在我想计算每种语言的频率。这是我用于检测语言的代码:

from langdetect import detect    
import pandas as pd
data_path = "./output_1.csv"
df = pd.read_csv(data_path, index_col=0)

for index, row in df.iterrows():
print(detect(row['text']))
if detect(row['text']) == "en":
print(row['text'])

我想使用列表属性计数来计算频率:

using the list i = ['en','fr','es','it','cs','pt']
d = {x:i.count(x) for x in i}
print d

如何对使用 langDetect 获取的数据使用 count 属性?

最佳答案

要创建一个包含您可以执行的语言的单独列:

df['language'] = df['text'].apply(lambda x: detect(x))

然后计算您可以执行的频率:

pd.DataFrame(df.groupby('language').text.count().sort_values(ascending=False))

关于python - 使用 langdetect 计算 pandas 数据框中的语言频率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54189378/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com