- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我知道这是一个有点落伍的话题,但我已经达到了我可以从已经回答的内容中获得的帮助的极限。
这是给 Rosalind project problem LREP 的.我试图在一个字符串中找到最长的 k-peated 子字符串,并且已经提供 后缀树,这很好。我知道我需要用每个节点的后代叶子的数量来注释后缀表,然后找到具有 >=k
后代的节点,最后找到那些节点中最深的节点。理论上我已经准备好了。
我从以下资源中得到了很多帮助(糟糕,我只能发布 2):
我可以得到从根到每个叶子的路径,但我不知道如何以这样一种方式预处理树,以便我可以从每个节点获得后代的数量。我有一个单独的算法,适用于小序列,但它的复杂度呈指数级,所以对于更大的东西,它需要的时间太长。我知道使用 DFS 我应该能够以线性复杂度执行整个任务。为了使该算法起作用,我需要能够在不到 5 分钟的时间内获得 ~40,000 长度字符串的最长 k-peat。
下面是一些示例数据(第一行:sequence
,第二行:k
,后缀表格式:parent child location length
):
CATACATAC$
2
1 2 1 1
1 7 2 1
1 14 3 3
1 17 10 1
2 3 2 4
2 6 10 1
3 4 6 5
3 5 10 1
7 8 3 3
7 11 5 1
8 9 6 5
8 10 10 1
11 12 6 5
11 13 10 1
14 15 6 5
14 16 10 1
此输出应为 CATAC
。
使用以下代码(修改自 LiteratePrograms )我已经能够获取路径,但是在较长的序列上解析每个节点的路径仍然需要很长时间。
#authors listed at
#http://en.literateprograms.org/Depth-first_search_(Python)?action=history&offset=20081013235803
class Vertex:
def __init__(self, data):
self.data = data
self.successors = []
def depthFirstSearch(start, isGoal, result):
if start in result:
return False
result.append(start)
if isGoal(start):
return True
for v in start.successors:
if depthFirstSearch(v, isGoal, result):
return True
# No path was found
result.pop()
return False
def lrep(seq,reps,tree):
n = 2 * len(seq) - 1
v = [Vertex(i) for i in xrange(n)]
edges = [(int(x[0]),int(x[1])) for x in tree]
for a, b in edges:
v[a].successors.append(v[b])
paths = {}
for x in v:
result = []
paths[x.data] = []
if depthFirstSearch(v[1], (lambda v: v.data == x.data), result):
path = [u.data for u in result]
paths[x.data] = path
我想做的是预处理树以在找到深度之前找到满足 descendants >= k
要求的节点。我什至还不知道如何计算深度。虽然我想我会有一些字典来跟踪路径中每个节点的深度然后求和。
因此,我的第一个最重要的问题是:“我如何用后代叶子预处理树?”
我的第二个不太重要的问题是:“在那之后,我怎样才能快速计算深度?”
附言我应该声明,这不是家庭作业或任何类似的东西。我只是一名试图通过一些计算挑战来扩展我的视野的生物化学家。
最佳答案
基本字符串操作练习的好问题。我不记得后缀树了;)但正如你所说:理论上,你已经准备好了。
wikipedia-stub关于这个话题有点困惑。你只需要知道,如果你是最外层的非叶节点,有 n >= k
个子节点。如果您在整个字符串中找到从根节点到这个节点的子字符串,后缀树会告诉您,有 n
可能的延续。所以必须有 n
个地方出现这个字符串。
这个问题和许多类似问题的一个简单关键概念是进行深度优先搜索:在每个节点中,询问子元素的值并将其最大值返回给父元素。根节点将获得最终结果。
计算值的方式因问题而异。这里每个节点都有三种可能性:
n
个子节点,则从根到此节点的每条边的连接字符串在整个字符串中出现 n
次。如果我们至少需要k
个节点和k > n
,结果也是无效的。当然,你也必须返回相应的结束节点。否则你会知道,最长的重复子串有多长,但不知道它在哪里。
您应该首先尝试自己编写代码。如果您想收集所有必要的信息,构建树很简单但并不简单。尽管如此,这里还是一个简单的例子。请注意:如果输入不知何故无效,则每项健全性检查都会被取消,一切都会严重失败。例如。不要尝试使用除根索引之外的任何其他根索引,不要将节点作为父节点引用,之前未将其作为子节点引用,等等。有很大的改进空间 *提示;)* .
class Node(object):
def __init__(self, idx):
self.idx = idx # not needed but nice for prints
self.parent = None # edge to parent or None
self.childs = [] # list of edges
def get_deepest(self, k = 2):
max_value = -1
max_node = None
for edge in self.childs:
r = edge.n2.get_deepest()
if r is None: continue # leaf
value, node = r
value += len(edge.s)
if value > max_value: # new best result
max_value = value
max_node = node
if max_node is None:
# we are either a leaf (no edge connected) or
# the last non-leaf.
# The number of childs have to be k to be valid.
return (0, self) if len(self.childs) == k else None
else:
return (max_value, max_node)
def get_string_to_root(self):
if self.parent is None: return ""
return self.parent.n1.get_string_to_root() + self.parent.s
class Edge(object):
# creating the edge also sets the correspondending
# values in the nodes
def __init__(self, n1, n2, s):
#print "Edge %d -> %d [ %s]" % (n1.idx, n2.idx, s)
self.n1, self.n2, self.s = n1, n2, s
n1.childs.append(self)
n2.parent = self
nodes = {1 : Node(1)} # root-node
string = sys.stdin.readline()
k = int(sys.stdin.readline())
for line in sys.stdin:
parent_idx, child_idx, start, length = [int(x) for x in line.split()]
s = string[start-1:start-1+length]
# every edge constructs a Node
nodes[child_idx] = Node(child_idx)
Edge(nodes[parent_idx], nodes[child_idx], s)
(depth, node) = nodes[1].get_deepest(k)
print node.get_string_to_root()
关于python - 最长重复(k 次)子串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13311259/
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我们可以说 O(K + (N-K)logK)相当于O(K + N logK)对于 1 < = K <= N ? 最佳答案 简短的回答是它们不等价,这取决于k 的值。如果k等于N,那么第一个复杂度是O(
我有以下解决方案,但我从其他评论者那里听说它是 O(N * K * K),而不是 O(N * K)其中 N 是 K 列表的(最大)长度,K 是列表的数量。例如,给定列表 [1, 2, 3] 和 [4,
我试图理解这些语法结构之间的语义差异。 if ((i% k) == (l % k) == 0) 和 if ((i % k) == 0 && (l % k) == 0) 最佳答案 您的特定表达式((i
我有时会使用一维数组: A = np.array([1, 2, 3, 4]) 或 2D 阵列(使用 scipy.io.wavfile 读取单声道或立体声信号): A = np.array([[1, 2
在文档聚类过程中,作为数据预处理步骤,我首先应用奇异向量分解得到U、S和Vt 然后通过选择适当数量的特征值,我截断了 Vt,这让我从阅读的内容中得到了很好的文档-文档相关性 here .现在我正在对矩
我问的是关于 Top K 算法的问题。我认为 O(n + k log n) 应该更快,因为……例如,如果您尝试插入 k = 300 和 n = 100000000,我们可以看到 O(n + k log
这个问题与另一个问题R:sample()密切相关。 。我想在 R 中找到一种方法来列出 k 个数字的所有排列,总和为 k,其中每个数字都是从 0:k 中选择的。如果k=7,我可以从0,1,...,7中
我目前正在评估基于隐式反馈的推荐系统。我对排名任务的评估指标有点困惑。具体来说,我希望通过精确度和召回率来进行评估。 Precision@k has the advantage of not requ
我在 Python 中工作,需要找到一种算法来生成所有可能的 n 维 k,k,...,k 数组,每个数组都沿轴有一行 1。因此,该函数接受两个数字 - n 和 k,并且应该返回一个数组列表,其中包含沿
我们有 N 对。每对包含两个数字。我们必须找到最大数 K,这样如果我们从给定的 N 对中取 J (1 2,如果我们选择三对 (1,2),我们只有两个不同的数字,即 1 和 2。 从一个开始检查每个可能
鉴于以下问题,我不能完全确定我当前的解决方案: 问题: 给定一个包含 n 元素的最大堆,它存储在数组 A 中,是否可以打印所有最大的 K 元素在 O(K*log(K)) 中? 我的回答: 是的,是的,
我明白了: val vector: RDD[(String, Array[String])] = [("a", {v1,v2,..}),("b", {u1,u2,..})] 想转换成: RDD[(St
我有 X 个正数,索引为 x_i。每个 x_i 需要进入 K 组之一(其中 K 是预先确定的)。令 S_j 为 K_j 中所有 x_i 的总和。我需要分配所有 x_i 以使所有 S_j 的方差最小化。
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。 这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
我正在研究寻找原始数的算法,看到下面的语句,我不明白为什么。 while (k*k <= n) 优于 while (k <= Math.sqrt(n)) 是因为函数调用吗?该调用函数使用更多资源。 更
我想找到一种尽可能快的方法来将两个小 bool 矩阵相乘,其中小意味着 8x8、9x9 ... 16x16。这个例程会被大量使用,所以需要非常高效,所以请不要建议直截了当的解决方案应该足够快。 对于
有没有一种惯用的方法来获取 Set和 Function ,并获得 Map实时取景? (即 Map 由 Set 和 Function 组合支持,例如,如果将元素添加到 Set ,则相应的条目也存在于 M
这个问题在这里已经有了答案: Can a local variable's memory be accessed outside its scope? (20 个答案) returning addr
给定一个矩阵:- k = [1 2 3 ; 4 5 6 ; 7 8 NaN]; 如果我想用 0 替换一个数字,比如 2,我可以使用这个:k(k==2) =
我是一名优秀的程序员,十分优秀!