- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我知道一点,在 python pandas 包中,数据框有一部分是用 NumPy NDArrays 构建的。并且 numpy 可以选择数据顺序类型,例如“C”或“F”。
由于我总是要在巨大的数据帧(如 1 亿行)上的列上实现大量操作,我希望如果我有机会将数据帧从 c 类型转换为 f 类型,我可以大大提高性能,对吧?
如果是这样,我该怎么做?或者简单地使用 numpy,因为 pandas 数据框不是必须的,实际上是一个快速的答案。
谢谢
最佳答案
有趣的是,Pandas 对每一列都使用了内部 C 顺序 numpy 数组。每当您访问多个列或所有数据框时,它都会连接这些 numpy 数组并返回一个 Fortran 顺序 numpy 数组。
print(df[df.columns[0]].values.flags)
print(df[df.columns[0:2]].values.flags)
print(df.values.flags)
#Single column
C_CONTIGUOUS : True
F_CONTIGUOUS : True
#Multiple columns
C_CONTIGUOUS : False
F_CONTIGUOUS : True
#Entire dataframe
C_CONTIGUOUS : False
F_CONTIGUOUS : True
因此,列操作非常快(添加/编辑/删除等)。这就是为什么在数据帧中迭代行很慢。如果您的程序有更多的行操作,请将其转换为 C 顺序,如下所示。
df = pd.DataFrame(np.ascontiguousarray(df.values), columns=df.columns)
每当我完成按列处理时,我会将其转换为 C 连续数组,因为缩放、批量训练 DNN 在 C 顺序数组中要快得多。
关于python - 如何使 Pandas 数据框 Fortran 类型有序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49420272/
就类似于这个问题:mongodb query multiple pairs using $in 我想用 (first, last) >= ('John', 'Smith') 找到前 10 个全名。使用
如何保留向 NSDictionary 添加对象的方式? 我意识到 NSDictionary 中的值没有特定的顺序,但就我而言,我需要保留使用 setValue:forKey: 添加的顺序,例如一个数组
看看上证所运营商 CMPORDPS - ordered compare packed singles CMPUNORDPS - unordered compare packed singles 有序和
我使用 PowerMock 来模拟静态方法。我需要验证静态和非静态方法调用的顺序。可以使用 PowerMock 来做吗? UPD 我使用 powermockito 扩展来模拟静态方法,因此使用 pow
例如,如何合并两个已排序的整数流?我认为这是非常基本的,但只是发现它根本不是微不足道的。下面的不是尾递归的,当流很大时它会堆栈溢出。 def merge(as: Stream[Int], bs: St
我试图在二叉树中查找/打印每个节点的中序后继,但编译器给我的结果是段错误。 这是结构:- struct node { int x; struct node *left; str
我有一个查询看起来像 SELECT a, b, c, d FROM tab ORDER BY a ASC, b ASC 我的结果集看起来像 +-----------------
首先,我试过搜索这个主题但一无所获(似乎找不到合适的关键词),所以如果这是重复的,请告知。 我一直在尝试从我的数据库中获取一些 time_stamp 并将它们按时间间隔排序。例如,我运行一个查询,如
这个问题在这里已经有了答案: How do I get the index of an iterator of an std::vector? (9 个回答) 关闭 6 年前。 我已经订购了 QVe
我有以下实体,如果我尝试通过 removeTask 方法从 TaskList 中删除 Task,则会出现异常。 @Entity public class TaskList extends Generi
所以,我对 C 编程还是很陌生。 有3个长度相同的字符串。 str1="abc", str2="def", str3="ghi". 新字符串中的输出将类似于“adgbehcfi”。 #include
我的查询有一个问题,它花费的时间太长(仅仅这个简单的查询就超过了两秒)。 乍一看,这似乎是一个索引问题,所有连接的字段都已编入索引,但我找不到其他我可能需要编入索引以加快速度的内容。一旦我将我需要的字
我正在寻找一个 Map 实现,它按照键值对的添加顺序迭代它们。例如 Map orderedMap = // instantiation omitted for obvious reasons :) o
我正在寻找具有以下功能的数据库系统: 分层(多维)键 每个维度的键排序 因此,如果我的 key 类似于 App > User > Item,我可以运行如下查询:“该用户的下一项是什么?”或者“这个应用
以下类使用 CRTP 尝试将类型添加到具有 Schwarz 计数器以确保初始化顺序的 std::vector。根据 3.6.2/2 成员 h_ 具有无序初始化。我将如何更改它以确保它已订购初始化?我希
我正在实现一个玩具调度程序,它读取进程规范(例如到达时间、总运行时间)的输入文件,然后根据随机 io/cpu 突发调度进程。 文件格式 Arrival time, total CPU time, CP
我目前正在使用 python 2.7 requests 库,并且不支持有序 header 。我可以为 post 和 get 放置有序数据(如有序字典),但根本不支持标题。甚至在 python 3 中也
我正在使用来自 google guava 的 ConcurrentHashMap(通过 MapMaker),但该实现未排序。google guava 中有 ConcurrentSkipListMap,
我有一个旧应用程序,其中使用 ConcurrentHashMap。现在我们知道并发HasMap 是无序的,但是需要读取最初插入的对象。我已经在生产中使用了一段时间的代码,因此我正在寻找快速替代方案来替
最近我开始使用 .NET Core 2.1 开发一个新项目,我决定使用 SOLID 原则并创建一个漂亮的项目结构。 这是一个 Web API 项目。一切正常我使用了很多依赖注入(inject),大部分
我是一名优秀的程序员,十分优秀!