- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我正在使用 Python、Pandas 和 Numpy,尽管这个问题感觉更像是一个更通用的算法设计问题。
我有一个元素列表(实际上是一个数组),我想生成该列表的排列。但是,某些项目不允许位于列表中的某些位置。我想生成一个遵守这些限制的排列。执行此操作的有效方法是什么?
我的实际使用案例是一个 Pandas 数据框,有两列 X
和 Y
。 X
和 Y
都有相同的数字,但顺序不同。数字不是唯一的。同一行的 X
和 Y
中没有数字出现(即没有数字与其自身匹配)。我想置换 Y
,同时保持没有数字与自身匹配的限制。我一直在 Y
上调用 Numpy 的 permute
,但大约 1% 的结果行具有 X==Y
。
用例子编辑:
import pandas as pd
import numpy as np
data = [[1,2],
[1,4],
[4,2],
[2,3]]
df = pd.DataFrame(columns=['X', 'Y'],
data=data)
df_permuted = df.copy()
df_permuted.Y = np.random.permutation(df.Y)
print(df.X==df.Y)
#0 False
#1 False
#2 False
#3 False
#dtype: bool
print(df_permuted.X==df_permuted.Y)
#0 False
#1 False
#2 False
#3 True
#dtype: bool
编辑:明显的算法太慢/无法扩展,是这样的:
for every row i:
define the set of valid candidate "other" rows (where i.X != other.Y and i.Y != other.X)
grab a row from the valid set
swap i.Y and other.Y
在我们的 Pandas 示例中,这将是:
from numpy.random import choice
for i in df.index:
other_rows = df[(df.ix[i].X != df.Y) * (df.ix[i].Y != df.X)]
selected_row = choice(other_rows.index)
original_Y = df.ix[i].Y
df.ix[i].Y = df.ix[selected_row].Y
df.ix[selected_row].Y = original_Y
print(df.X==df.Y)
#0 False
#1 False
#2 False
#3 False
#dtype: bool
问题是这太慢了,而且根本没有并行化。有没有办法并行化它?我想答案是“否”,因为对一行进行的交换会影响下一行的有效“其他”。
编辑比例感:大约 1.4*10^7 行,X 中有 2*10^6 个唯一值,Y 中有类似的数字。并且需要生成大约 10^3 个独立排列。实际上,我将行分组并独立排列它们的内容,有些组非常小(例如 10 行),但许多组相当大 (10^5)。这买来了一点帮助,但最后还是排了一大堆!仅在 10^7 行上运行一个简单的 np.random.permutation
大约需要 7 秒,这就足够了。运行上面的受限排列算法(在 numpy 而不是 pandas 中实现以提高速度)只需 7 秒即可处理 10^3 行。哔!
最佳答案
我希望我不会想出一个对您的示例过于具体的解决方案。但是,如果可行,您可以创建每个排列,然后删除不符合您标准的排列。然后您可以直接使用它或从生成的排列中随机抽样。
这是受上述示例启发的代码。我意识到我使用的起始假设略有不同:
df = pd.DataFrame( list(itertools.product([1,2,3,4], [1,2,3,4])), columns = ['X','Y'])
print df
X Y
0 1 1
1 1 2
2 1 3
3 1 4
4 2 1
5 2 2
6 2 3
7 2 4
8 3 1
9 3 2
10 3 3
11 3 4
12 4 1
13 4 2
14 4 3
15 4 4
然后设置您感兴趣的条件:
print df[df.X != df.Y]
X Y
1 1 2
2 1 3
3 1 4
4 2 1
6 2 3
7 2 4
8 3 1
9 3 2
11 3 4
12 4 1
13 4 2
14 4 3
编辑:我将把上面所有的组合垃圾留在那里,因为其他人可能会发现它有用。但在评论中聊天后,我认为我有一个可能的解决方案。
看起来你可以进行排列,然后将排列后的数据框分成两个子集:
然后我们可以获取第一个子集,然后简单地再次置换它。子集 1 应该比子集 2 小得多。我们只是递归地这样做,创建一组符合条件的记录应该非常容易和快速。
当然,我们必须处理只有一行匹配的情况。
我已经实现了一个示例解决方案:
设置一些与真实数据大小相似的播放数据:
np.random.seed(3)
n=14000000
df = pd.DataFrame({'X' : np.random.randint(2000000, size=n),
'Y' : np.random.randint(2000000, size=n)})
示例数据将从一些重复的行开始,但这没关系。让我们创建随机播放功能:
def permuteDataFrame(inDf):
permutedDf = pd.DataFrame({'X' : np.random.permutation(inDf.X),
'Y' : np.random.permutation(inDf.Y)})
# check for dupes
clash = permutedDf[permutedDf.X == permutedDf.Y]
if clash.shape[0] > 1: #repermuting can't work if only one row has a match
clash = permutedDf[permutedDf.X == permutedDf.Y].copy()
noclash = permutedDf[permutedDf.X != permutedDf.Y].copy()
# recursion FTW: run the clashes back through this algo
clash = permuteDataFrame(clash)
permutedDf = pd.concat([clash, noclash ])
if clash.shape[0] == 1: # handle the single match problem
# solving the single match by grabbing the single match plus a random other record and permuting
# get the vector of bools that indicate matches
clashIndex = permutedDf.X == permutedDf.Y
# randomly make another one True
ilocToSwap = np.random.randint(permutedDf.shape[0]) # random record location to swap
indexOfClashes.iloc[ilocToSwap] = True
clash = permutedDf[indexOfClashes]
# recursion FTW: run the clashes back through this algo
clash = permuteDataFrame(clash)
permutedDf = pd.concat([clash, noclash ])
return permutedDf
在我的 Mac 上,一个简单的排列需要 5.3 秒。新的 permuteDataFrame()
函数需要 5.8 秒。即使在您的机器上需要 8 秒,也可以在 2.2 小时内获得 1000 个。那可能行得通。
关于python - 创建一个有限制的排列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26908381/
我需要在给定的列表上生成排列。我设法这样做 let rec Permute (final, arr) = if List.length arr > 0 then for x i
我正在尝试运行我的代码,以便它打印循环排列,尽管我目前只能让它执行第一个排列。它正确运行到我标记的点,但我看不出出了什么问题。我认为 while 循环中没有中断,但我不确定。确实需要一些帮助。 pac
我正在尝试计算不包含连续字母的排列数。我的代码通过了像“aabb”(答案:8)和“aab”(答案:2)这样的测试,但没有通过像“abcdefa”这样的情况(我的答案:2520;正确答案:3600)。这
我正在尝试使用 dplyr 的 arrange 根据条件对字符串进行排序。我想在一列上排列,但如果第二列等于一个值,则按升序排列,如果第二列等于另一个值,则按降序排列。 我发现了几个类似的问题(其中一
在 R 中,我使用 dplyr更具体地说 arrange() . 不知何故 arrange功能没有按预期工作。 在下面的示例中,我首先存储列的名称,然后将此变量作为参数传递给名为“my_functio
以下是我的 main.qml : Window { id: window visible: true width: 800 height: 480 title:
很难用谷歌搜索这个问题,因为我不确定这些概念叫什么,并且所有“两个数组/组的组合”SO 帖子都没有给我我期望的输出。 数组示例: var array1 = ['Bob', 'Tina']; var a
实现以下目标的最佳方法是什么?我有两个列表: val l1 = List("a", "b") val l2 = List(1, 2) 我想生成这个: List ( List(('a', 1)
我知道互联网上有很多针对我的具体问题的解决方案,但我一直在尝试以特定的方式解决它,但它不起作用,我真的无法理解出了什么问题。就我而言,我只想打印排列。这是我的代码: a = "abc"; functi
我有这样的代码来创建排列: --unique permutation perm :: [t] -> [[t]] perm [] = [[]] perm (x:xs) = [(y:zs) | (y,ys
有没有比使用基本公式 n!/(n-r)! 更好的方法?就像我们对 nCr(组合) nCr = (n-l)Cr + (n-1)C(r-1) 一样? 最佳答案 这样怎么样:nPr = (n−1)Pr +
此问答的动机是 How to build permutation with some conditions in R . 到目前为止,已经有一些很好的 R 软件包,例如 RcppAlgos 和 arr
我正在修改一本书中的排列示例。以下代码按预期工作。 perms([]) -> [[]]; perms(L) -> [[H|T] || H []; 它返回一个空列表。当我替换时,我得到了这个。
大约一周前,我问了一个关于帮助我解决这个问题的问题 Java permutations ,打印排列方法有问题。我已经整理了我的代码,并有一个现在可以工作的工作示例,尽管如果 5 位于数组中的第五个位置
我有一个包含重复元素的列表,即orig = [1,1,1,2,2,3]。 我想创建一个derangement b = f(orig),使得 b 中的每个位置值都与 orig 中的值不同: b[i] !
我想生成一个 array a 的排列而且我不想使用实用功能,例如 java.util.Collections() . 排列应该是随机的,并且每个排列都应该有可能发生 - 但不需要均等分布的概率。 以下
我有一个作业:用户输入一个字符串,例如 ABCD,程序必须给出所有排列。我不希望整个代码只是一个提示。这是我到目前为止在他们那里得到的,我没有得到任何实现。 以ABCD为例: 在本例中获取字符串长度的
我目前正在编写一个使用 itertools 的程序,其中的一部分似乎无法正常运行。我希望确定排列函数输出列表长度的输入等于它生成输出的列表长度。换句话说,我有 import itertools b =
我有一个列表 x=[1,2,3,4,5] 并且想查看这个列表的不同排列,一次取两个数字。 x=[1,2,3,4,5] from itertools import permutations y=list
我正在寻找 C 或 Python 代码来实现两个伪代码函数之一: function 1: list1 = [0,1,2] #any list of single-integer elements li
我是一名优秀的程序员,十分优秀!