- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我一直在尝试通过使用 n-gram 对文本进行标记来进行 NLP。我必须按标签 A
计算每个 n-gram 出现的次数。和B
分别。
但是,我必须在将长列表放入列与获取非常长的数据帧之间进行选择,并且我不确定哪种结构优于另一种结构。
据我所知,在数据帧的列中包含列表是一个糟糕的结构,因为您几乎无法使用 pandas 操作获得任何有用的信息,例如获取多个列表中某个项目的频率(出现)。此外,即使可能,也需要更多的计算来完成任何任务。
但是,我知道数据帧太长会消耗大量 RAM,如果数据太大而无法放入 RAM,甚至可能会杀死其他进程。我当然不想陷入这种情况。
所以现在我必须做出选择。我想要做的是通过标签计算每个 ngram 项目的出现次数。
例如,(数据框如下所示)
{
{ngram: hey, occurence_A: 2, occurence_B: 0},
{ngram: python, occurence_A: 2, occurence_B: 1},
...
}
我认为这与说明我的计算机规范有关。
CPU: i3-6100
RAM: 16GB
GPU: n/a
数据框1:
+------------+-------------------------------------------+-------+
| DATE | NGRAM | LABEL |
+------------+-------------------------------------------+-------+
| 2019-02-01 | [hey, hey, reddit, reddit, learn, python] | A |
| 2019-02-02 | [python, reddit, pandas, dataframe] | B |
| 2019-02-03 | [python, reddit, ask, learn] | A |
+------------+-------------------------------------------+-------+
数据框2:
+------------+-----------+-------+
| DATE | NGRAM | LABEL |
+------------+-----------+-------+
| 2019-02-01 | hey | A |
| 2019-02-01 | hey | A |
| 2019-02-01 | reddit | A |
| 2019-02-01 | reddit | A |
| 2019-02-01 | learn | A |
| 2019-02-01 | python | A |
| 2019-02-02 | python | B |
| 2019-02-02 | reddit | B |
| 2019-02-02 | pandas | B |
| 2019-02-02 | dataframe | B |
| 2019-02-03 | python | A |
| 2019-02-03 | reddit | A |
| 2019-02-03 | ask | A |
| 2019-02-03 | learn | A |
+------------+-----------+-------+
最佳答案
就像您提到的,在数据帧的列中包含列表是一种糟糕的结构,并且首选长格式数据帧。我尝试从几个方面来回答这个问题:
对于类似列表的列,您无法轻松使用 Pandas 函数。
例如,您提到您对 LABEL
的 NGRAM
感兴趣。使用 dataframe1 (df1),您可以通过简单的 groupby 和 count 函数轻松获得所需的内容,而对于 dataframe2 (df2),您需要分解
列表列表列,然后才能对其进行处理:
df1.groupby(['LABEL','NGRAM']).count().unstack(-1).fillna(0)
df2.explode(column='NGRAM').groupby(['LABEL','NGRAM']).count().unstack(-1).fillna(0)
两者都给你同样的东西:
此外,许多原生 Pandas 函数(例如我最喜欢的 value_counts
)无法直接在列表上工作,因此几乎总是需要 explode
。
分解
列)假设您决定将 NGRAM
大写,您将分别执行以下操作,您可以看到 df2 需要更长的时间来执行:
df1['NGRAM'] = df1['NGRAM'].str.capitalize()
# 1000 loops, best of 5: 1.49 ms per loop
df2['NGRAM'] = df2['NGRAM'].explode().str.capitalize().groupby(level=0).apply(list)
# 1000 loops, best of 5: 246 µs per loop
如果内存对您来说是一个问题,您可能需要考虑直接使用每个标签的 NGRAM 计数(上图中的数据结构,而不是将它们存储为 df1 或 df2)或使用 Numpy 数组(这可以减少开销) Pandas 稍微),同时单独保存 NGRAM 字典文件。
关于python - 哪个 Pandas 数据框更好 : super long dataframe VS badly structured one with lists,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60389468/
问题比较Java,但是我想在Android中实现: 假设有 3 个或更多类相互扩展: class A { ... int color; ... } class B extend
我知道标题听起来有点奇怪,但这正是我愿意做的。简单解释:A类是B类的子类,B类也是C类的子类>. 现在,所有这些类都包含方法m()。在我的 A 类中,这是我唯一可以访问的类,因为其他类仅在运行时可用,
我有一个 UIViewController 类 A 和 B。 A 使用以下方式加载 B:[A.view addSubView B.view]。 B 有一个带有“后退”按钮的导航栏。我想在单击时返回到
我有以下(第三方)类结构。我们将调用第三方项目 ProjectSeriously,并注意我使用 System.out.println 代替其他复杂的功能(100 行代码) . class A {
在下面的代码中,我从 Game 扩展了 MyGame。我有两个问题: 我们是否需要为所有render()、dispose()、pause()调用super方法 和 resize(w,h)?很多人都没有
例如,假设我想在调用 super.viewDidLoad() 时跳过一级。所以我希望能够做这样的事情: override func viewDidLoad() { super.super.vi
public class Faculty extends Employee { public static void main(String[] args) { new Fac
假设我有: class Superclass { //fields... methodA() {...} methodB() {...} ... } class Subclass exte
这个问题在这里已经有了答案: Why is super.super.method(); not allowed in Java? (22 个答案) 关闭 9 年前。 我怀疑我想做的事情是否可行。我有
我有一个实现 Initializable 的类。 public abstract class ExampleClass implements Initializable { public vo
我想知道,我有这个大数组,是否可以只在内存中使用一次而不是每个线程一次?以 stackoverflow 上的标签为例。他们几乎从不改变,为什么不为他们留下一个内存点呢?甚至可能将该数组永久保存在内存中
假设这三个类具有这个简单的层次结构: class A { func foo() { print("A") } } class B: A { override fu
有没有办法在 TypeScript 中调用 super.super.methodName。我想避免调用super.methodName,但我想调用二祖的methodName方法。 谢谢。 最佳答案 T
这个问题已经有答案了: When do I use super()? (11 个回答) 已关闭 7 年前。 package Geometry; public abstract class Geomet
我必须执行and()在我的实现 Predicate 的业务对象上. 出现问题的代码是 and() 行调用: Predicate predicate = new M
我有一个实现接口(interface)的抽象父类(super class): public abstract class FooMatrix implements Matrix { publi
我有四个 UIView:viewA 是 Root View ,它有 viewB 作为它的 subview 。 viewB 将 viewC 作为其 subview ,而 viewC 将 viewD 作为
有什么区别: class Child(SomeBaseClass): def __init__(self): super(Child, self).__init__() 和:
我有一个通用接口(interface) interface ListList extends List> .由于某些原因,我无法转换 ListList至 List> .有什么方法可以做到吗?为什么它不
我想调用带有两个参数的父类(super class)的构造函数,所以我调用了 super(arguments),但是编译器说: “类 Person 中的构造函数 Person 不能应用于给定类型; 要
我是一名优秀的程序员,十分优秀!