- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在做一些自然语言处理,我有一个看起来像这样的 MultiIndexed DataFrame(除了实际上有大约 3,000 行):
Title N-grams
Period Date
2015-01 2015-01-01 22:00:10 SIRF: Simultaneous Image Registration and Fusi... [@SENTBEGIN paper, paper propose, propose nove...
2015-01-02 16:54:13 Generic construction of scale-invariantly coar... [@SENTBEGIN encode, encode temporal, temporal ...
2015-01-04 00:07:00 Understanding Trajectory Behavior: A Motion Pa... [@SENTBEGIN mining, mining underlie, underlie ...
2015-01-04 09:07:45 Hostile Intent Identification by Movement Patt... [@SENTBEGIN the, the recent, recent year, year...
2015-01-04 14:35:58 A New Method for Signal and Image Analysis: Th... [@SENTBEGIN brief, brief review, review provid...
我想做的是计算每个 n-gram 在每个月出现的次数(因此第一个索引“Period”)。这样做是相当简单的,如果耗时(并且因为“N-grams”列中的每个单元格都是一个列表,我不确定可以做很多事情来加快速度)。我使用以下代码创建了一个新的 DataFrame 来保存计数:
# Create the frequencies DataFrame.
period_index = ngrams.index.unique(level = "Period")
freqs = DataFrame(index = period_index)
# Count the n-grams in each period.
for period in period_index:
for ngrams_list in ngrams.loc[period, "N-grams"]:
for ngram in ngrams_list:
if not ngram in freqs.columns:
freqs[ngram] = 0
freqs.loc[period, ngram] += 1
逻辑非常简单:如果已经看到有问题的 n-gram(在“freqs”中有一列),则将计数加 1。如果还没有看到,则创建一个新的该 n-gram 的 0 列,然后正常递增。在绝大多数情况下,这工作正常,但对于一小部分 n-gram,当循环到达增量行时我会收到此错误:
KeyError: u'the label [7 85.40] is not in the [index]'
(很抱歉缺少正确的堆栈跟踪——我在 Zeppelin Notebook 中执行此操作,而 Zeppelin 没有提供正确的堆栈跟踪。)
更多的调试表明,在这些情况下,新列的创建会悄无声息地失败(也就是说,它不起作用,但它也不会返回异常)。
可能值得注意的是,在早期版本的代码中,我使用“loc”直接分配给新创建的列中的单元格,而不是先创建列,如下所示:
if not ngram in freqs.columns:
freqs.loc[period, ngram] = 1
我更改了它,因为它通过将该 n-gram 的 NaN 分配给所有其他时间段而导致问题,但直接分配在与新代码完全相同的 n-gram 上阻塞。
通过将增量行包装在 try/except block 中,我发现该错误极其很少见:在总共超过 100,000 个 n-gram 中,大约有 20 个出现错误语料库。以下是一些示例:
"7 85.40"
"2014 july"
"2010 3.4"
"and 77"
"1997 and"
"and 2014"
"6 2008"
"879 --"
"-- 894"
"2003 -"
"- 2014"
这 20 个中的大部分包含数字,但至少有一个完全是字母(两个单词用空格分隔——它不在上面的列表中,因为我在输入这个问题时重新运行了脚本,但没有一直到那个点),并且大量只有数字的 n-gram 不会导致问题。大多数有问题的都涉及年份,从表面上看,这可能表明与 DataFrame 的 DatetimeIndex 存在某种混淆(假设 DatetimeIndex 接受部分匹配),但这并不能解释非日期,尤其是那些以字母开头。
尽管 DatetimeIndex 冲突的可能性不大,但我尝试了一种不同的方法来创建每个新列(如对 Adding new column to existing DataFrame in Python pandas 的回答所建议的),使用“loc”来避免行和列之间的任何混淆:
freqs.loc[:, ngram] = Series(0, index = freqs.index)
...但这与我的原始代码完全相同,它通过分配给一个不存在的列来隐式创建每个新列:
KeyError: u'7 85.40'
接下来,我尝试了 DataFrame.assign 方法(在上面引用的相同答案中建议,尽管我需要添加 pandas assign with new column name as string 的答案建议的解决方法):
kwarg = {ngram: 0}
freqs = freqs.assign(**kwarg)
唉,这会产生完全相同的错误。
有没有人对为什么会发生这种情况有任何见解?考虑到这种情况,我想我可以忽略有问题的 n-gram,但最好了解发生了什么。
最佳答案
不推荐或不需要嵌套的 for
循环。您可以使用 sklearn.preprocessing
库中的 MultiLabelBinarizer
提供单热编码,然后使用 groupby
+ sum
使用结果并加入您的原始数据框。
这是一个演示:
df = df.set_index(['L1', 'L2'])
row_counts = df['values'].apply(pd.Series.value_counts).fillna(0).astype(int)
# alternative if above does not work
row_counts = df['values'].apply(lambda x: pd.Series(x).value_counts(sort=False))\
.fillna(0).astype(int)
row_counts_grouped = row_counts.groupby(level='L1').sum()
df = df.join(row_counts_grouped, how='inner')
print(df)
values a b c d e g
L1 L2
1 1 [a, a, c] 3 2 2 1 1 0
2 [b, c, d] 3 2 2 1 1 0
3 [a, b, e] 3 2 2 1 1 0
2 1 [a, e, g] 1 2 1 2 2 1
2 [b, d, d] 1 2 1 2 2 1
3 [e, b, c] 1 2 1 2 2 1
我们不考虑使用此解决方案的行中的重复值:
from sklearn.preprocessing import MultiLabelBinarizer
df = pd.DataFrame([[1,1,['a','a','c']], [1,2,['b','c','d']], [1,3,['a','b','e']],
[2,1,['a','e','g']], [2,2,['b','d','d']], [2,3,['e','b','c']]],
columns=['L1', 'L2', 'values'])
df = df.set_index(['L1', 'L2'])
mlb = MultiLabelBinarizer()
onehot = pd.DataFrame(mlb.fit_transform(df['values']),
columns=mlb.classes_,
index=df.index.get_level_values('L1'))
onehot_grouped = onehot.groupby(level='L1').sum()
df = df.join(onehot_grouped, how='inner')
print(df)
values a b c d e g
L1 L2
1 1 [a, a, c] 2 2 2 1 1 0
2 [b, c, d] 2 2 2 1 1 0
3 [a, b, e] 2 2 2 1 1 0
2 1 [a, e, g] 1 2 1 1 2 1
2 [b, d, d] 1 2 1 1 2 1
3 [e, b, c] 1 2 1 1 2 1
关于python - 分配给 pandas DataFrame 中的新列时令人费解的 KeyError,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53532140/
我正在处理一组标记为 160 个组的 173k 点。我想通过合并最接近的(到 9 或 10 个组)来减少组/集群的数量。我搜索过 sklearn 或类似的库,但没有成功。 我猜它只是通过 knn 聚类
我有一个扁平数字列表,这些数字逻辑上以 3 为一组,其中每个三元组是 (number, __ignored, flag[0 or 1]),例如: [7,56,1, 8,0,0, 2,0,0, 6,1,
我正在使用 pipenv 来管理我的包。我想编写一个 python 脚本来调用另一个使用不同虚拟环境(VE)的 python 脚本。 如何运行使用 VE1 的 python 脚本 1 并调用另一个 p
假设我有一个文件 script.py 位于 path = "foo/bar/script.py"。我正在寻找一种在 Python 中通过函数 execute_script() 从我的主要 Python
这听起来像是谜语或笑话,但实际上我还没有找到这个问题的答案。 问题到底是什么? 我想运行 2 个脚本。在第一个脚本中,我调用另一个脚本,但我希望它们继续并行,而不是在两个单独的线程中。主要是我不希望第
我有一个带有 python 2.5.5 的软件。我想发送一个命令,该命令将在 python 2.7.5 中启动一个脚本,然后继续执行该脚本。 我试过用 #!python2.7.5 和http://re
我在 python 命令行(使用 python 2.7)中,并尝试运行 Python 脚本。我的操作系统是 Windows 7。我已将我的目录设置为包含我所有脚本的文件夹,使用: os.chdir("
剧透:部分解决(见最后)。 以下是使用 Python 嵌入的代码示例: #include int main(int argc, char** argv) { Py_SetPythonHome
假设我有以下列表,对应于及时的股票价格: prices = [1, 3, 7, 10, 9, 8, 5, 3, 6, 8, 12, 9, 6, 10, 13, 8, 4, 11] 我想确定以下总体上最
所以我试图在选择某个单选按钮时更改此框架的背景。 我的框架位于一个类中,并且单选按钮的功能位于该类之外。 (这样我就可以在所有其他框架上调用它们。) 问题是每当我选择单选按钮时都会出现以下错误: co
我正在尝试将字符串与 python 中的正则表达式进行比较,如下所示, #!/usr/bin/env python3 import re str1 = "Expecting property name
考虑以下原型(prototype) Boost.Python 模块,该模块从单独的 C++ 头文件中引入类“D”。 /* file: a/b.cpp */ BOOST_PYTHON_MODULE(c)
如何编写一个程序来“识别函数调用的行号?” python 检查模块提供了定位行号的选项,但是, def di(): return inspect.currentframe().f_back.f_l
我已经使用 macports 安装了 Python 2.7,并且由于我的 $PATH 变量,这就是我输入 $ python 时得到的变量。然而,virtualenv 默认使用 Python 2.6,除
我只想问如何加快 python 上的 re.search 速度。 我有一个很长的字符串行,长度为 176861(即带有一些符号的字母数字字符),我使用此函数测试了该行以进行研究: def getExe
list1= [u'%app%%General%%Council%', u'%people%', u'%people%%Regional%%Council%%Mandate%', u'%ppp%%Ge
这个问题在这里已经有了答案: Is it Pythonic to use list comprehensions for just side effects? (7 个答案) 关闭 4 个月前。 告
我想用 Python 将两个列表组合成一个列表,方法如下: a = [1,1,1,2,2,2,3,3,3,3] b= ["Sun", "is", "bright", "June","and" ,"Ju
我正在运行带有最新 Boost 发行版 (1.55.0) 的 Mac OS X 10.8.4 (Darwin 12.4.0)。我正在按照说明 here构建包含在我的发行版中的教程 Boost-Pyth
学习 Python,我正在尝试制作一个没有任何第 3 方库的网络抓取工具,这样过程对我来说并没有简化,而且我知道我在做什么。我浏览了一些在线资源,但所有这些都让我对某些事情感到困惑。 html 看起来
我是一名优秀的程序员,十分优秀!