gpt4 book ai didi

python - 如何使用 Pandas 删除项目或字符串少于一定数量的行?

转载 作者:太空宇宙 更新时间:2023-11-03 14:56:31 24 4
gpt4 key购买 nike

我进行了很多搜索,但找不到针对此特殊情况的解决方案。我想删除列表中包含少于 3 个字符串或项目的任何行。我的问题将在下面得到更明确的解决。

我正在使用 pandas 中的大型瑞典数据库准备 LDA 主题建模,并将测试用例限制为 1000 行。我只关心特定的列,到目前为止我的方法如下:

con = sqlite3.connect('/Users/mo/EXP/NAV/afm.db')
sql = """
select * from stillinger limit 1000
"""
dfs = pd.read_sql(sql, con)

plb = """
select PLATSBESKRIVNING from stillinger limit 1000
"""
dfp = pd.read_sql(plb, con);dfp

然后我定义了一个正则表达式,其中第一个参数删除所有元字符,同时保留瑞典语和挪威语特定字母。第二个参数删除单词 < 3:

rep = {
'PLATSBESKRIVNING': {
r'[^A-Za-zÅåÄäÖöÆØÅæøå]+': ' ',
r'\W*\b\w{1,3}\b': ' '}
}

p0 = (pd.DataFrame(dfp['PLATSBESKRIVNING'].str.lower()).replace(rep, regex=True).
drop_duplicates('PLATSBESKRIVNING').reset_index(drop=True));p0

PLATSBESKRIVNING
0 medrek rekrytering söker uppdrag manpower h...
1 familj barn tjejer kille söker pair ...
2 uppgift blir tillsammans medarbetare leda ...
3 behov operasjonssykepleiere langtidsoppdr...
4 detta perfekta jobbet arbetstiderna vardaga...
5 familj paris barn söker älskar barn v...
6 alla inom cafe restaurang förekommande arbets...
.
.

创建 pandas 系列:

s0 = p0['PLATSBESKRIVNING'] 

然后:

ts = s0.str.lower().str.split();ts

0 [medrek, rekrytering, söker, uppdrag, manpower...
1 [familj, barn, tjejer, kille, söker, pair, vil...
2 [uppgift, blir, tillsammans, medarbetare, leda...
3 [behov, operasjonssykepleiere, langtidsoppdrag...
4 [detta, perfekta, jobbet, arbetstiderna, varda...
5 [familj, paris, barn, söker, älskar, barn, vil...
6 [alla, inom, cafe, restaurang, förekommande, a...
7 [diskare, till, cafe, dubbel, sökes, arbetet, ...
8 [diskare, till, thelins, konditori, sökes, arb...

从数据库中删除停用词:

r = s0.str.split().apply(lambda x: [item for item in x if item not in mswl]);r

0 [uppdrag, bemanningsföretag, erbjuds, tillägg,...
1 [föräldrarna, citycentre, stort, tomt, mamman,...
2 [utveckla, övergripande, strategiska, frågor, ...
3 [erfaring, sykepleier, legitimasjon]
4 [arbetstiderna, vardagar, härliga, människor, ...
5 [paris, utav, badrum, båda, yngsta, endast, fö...
6 [förekommande, emot, utbildning]
7 []
8 [thelins]
9 [paris, baby, månader, våning, delar, badrum, ...

创建一个新的 DataFrame 并删除空括号:

dr = pd.DataFrame(r)
dr0 = dr[dr.astype(str)['PLATSBESKRIVNING'] != '[]'].reset_index(drop=True); dr0

PLATSBESKRIVNING
0 [uppdrag, bemanningsföretag, erbjuds, tillägg,...
1 [föräldrarna, citycentre, stort, tomt, mamman,...
2 [utveckla, övergripande, strategiska, frågor, ...
3 [erfaring, sykepleier, legitimasjon]
4 [arbetstiderna, vardagar, härliga, människor, ...
5 [paris, utav, badrum, båda, yngsta, endast, fö...
6 [förekommande, emot, utbildning]
7 [thelins]
8 [paris, baby, månader, våning, delar, badrum, ...

维护字符串:

dr1 = dr0['PLATSBESKRIVNING'].apply(str);  len(dr1),type(dr1), dr1

0 ['uppdrag', 'bemanningsföretag', 'erbjuds', 't...
1 ['föräldrarna', 'citycentre', 'stort', 'tomt',...
2 ['utveckla', 'övergripande', 'strategiska', 'f...
3 ['erfaring', 'sykepleier', 'legitimasjon']
4 ['arbetstiderna', 'vardagar', 'härliga', 'männ...
5 ['paris', 'utav', 'badrum', 'båda', 'yngsta', ...
6 ['förekommande', 'emot', 'utbildning']
7 ['thelins']
8 ['paris', 'baby', 'månader', 'våning', 'delar'...

我现在的问题是我想删除列表中包含少于 3 个字符串的任何行,例如第 3、6 和 7 行。所需的结果如下:

0      ['uppdrag', 'bemanningsföretag', 'erbjuds', 't...
1 ['föräldrarna', 'citycentre', 'stort', 'tomt',...
2 ['utveckla', 'övergripande', 'strategiska', 'f...
3 ['arbetstiderna', 'vardagar', 'härliga', 'männ...
4 ['paris', 'utav', 'badrum', 'båda', 'yngsta', ...
5 ['paris', 'baby', 'månader', 'våning', 'delar'...
.
.

我怎样才能得到这个?我还想知道这是否可以以更简洁的方式完成?我的方法看起来非常笨拙和麻烦。

我还想删除 LDA 主题建模的索引和列名,以便我可以将其写入文本文件,而无需标题和索引数字。我尝试过:

dr1.to_csv('LDA1.txt',header=None,index=False)

但这会将引号“['word1', 'word2', 't.. ]”包裹到文件中的每个字符串列表中。

如有任何建议,我们将不胜感激。

最诚挚的问候钼

最佳答案

只需测量列表中的项目数并过滤长度小于 3 的行

dr0['length'] = dr0['PLATSBESKRIVNING'].apply(lambda x: len(x))
cond = dr0['length'] > 3
dr0 = dr0[cond]

关于python - 如何使用 Pandas 删除项目或字符串少于一定数量的行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45531386/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com