- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在构建一个 De Bruijn Assembly 示例,用于组装基因组(或任何字符串),方法是获取字符串长度为 n 的每个可能的单词,然后通过比较每个单词的结尾部分找到正确的读取路径节点。它接受一个序列和每个序列读取的大小作为参数,它首先将所有读取收集到一个大小为 [kmer_size][3] 的数组中,[3] 索引 0=完整读取 1=读取的最右边字符以外的所有字符 2=读取的最左边字符以外的所有字符。
组装 reads 的部分按预期工作,它被分成一个函数并且这些 reads 被正确打印。
然后我创建了一个 unordered_map,使用 char* 作为键,另一个 map 作为值,该映射由 char* 键控并由 int 赋值。
应该发生的是它应该检查除了最左边的字符之外的读取部分是否与彼此读取的相同部分匹配,如果它们匹配,则获取匹配读取的右侧排除部分并创建一个新条目在由您正在测试的读取的左排除部分键入的内部映射中,将该元素的值增加 1。
如果您查看输出,您会发现当我在一个单独的循环中打印嵌套 map 的内容时,外部 map 和内部 map 中都有重复的条目。具有相同字符串值的 char* 键不会将项目放入同一个桶中,而是创建一个具有相同名称的新桶。我假设这是因为 char* 实际上是一个字符串值,而是一个地址,它们指向不同的地址。
我将如何修改此代码以允许我的 map 每个字符串只有 1 个桶
#include<stdio.h>
#include<string.h>
#include<iostream>
#include<bits/stdc++.h>
#include<unordered_map>
using namespace std;
void extractReads(char* kmers[][3], int num_kmers, int kmer_size, char* seq);
int main(int nargs, char* args[]){
if(nargs!=3){
cout<<"INVALID ARGUMENTS"<<endl;
cout<<"dba <kmer_size> <sequence>"<<endl;
}
char* seq = args[2];
int kmer_size = atoi(args[1]);
int num_kmers = strlen(seq)-(kmer_size -1);
char* kmers[num_kmers][3];
unordered_map<char*, unordered_map<char*, int> > nodes;
extractReads(kmers, num_kmers, kmer_size, seq);
for(int i=0; i< num_kmers; i++)
{
for(int j=0; j<num_kmers; j++)
{
if(strcmp(kmers[i][2], kmers[j][2]) == 0 )
{
// cout<<" match"<<endl;
nodes[kmers[i][2]][kmers[j][1]]++;
}
}
}
for(auto node: nodes)
{
cout<<node.first<<endl;
for (auto n: node.second)
{
cout<<" "<<n.first<<" "<<n.second<<endl;
}
}
return 0;
}
void extractReads(char* kmers[][3], int num_kmers, int kmer_size, char* seq)
{
cout<<"READS"<<endl<<"==========="<<endl;
for (int i=0; i<num_kmers; i++){
kmers[i][0] = (char*) malloc(kmer_size);
kmers[i][1] = (char*) malloc(kmer_size-1);
kmers[i][2] = (char*) malloc(kmer_size-1);
strncpy(kmers[i][0], seq+i, kmer_size);
strncpy(kmers[i][1], kmers[i][0], kmer_size-1);
strncpy(kmers[i][2], kmers[i][0]+1, kmer_size-1);
cout<<kmers[i][0]<<" : "<<kmers[i][1]<<" "<<kmers[i][2]<<endl;
}
cout<<"==========="<<endl;
}
最佳答案
您的代码有很多问题(正如对问题的评论所暗示的那样),我将在答案末尾列出它们,因为它们与问题的核心无关。
正如您所怀疑的那样,有问题的行是:
unordered_map<char*, unordered_map<char*, int> > nodes
如你所说
this is because char* is actually a string value but an address and they are pointing to different addresses.
换句话说,您的字符串 (kmers) 作为指针进行比较。如果两个char *
对象分配有两个不同的 malloc 调用,然后它们具有不同的地址。 unordered_map
只比较地址,而不比较地址处的字符集。
解决方案是开始使用 C++ 字符串而不是 C 零终止字符串:
std::unordered_map<std::string, std::unordered_map<std::string, int> > nodes
这将解决您的代码存在的其他问题:
std::string
解决问题。std::string
正是针对这种情况进行了优化,并完全避免了这些字符串的堆内存。使用 std::string
代码将运行得更快通过避免不必要的堆分配。另一种不太理想的选择是提供您自己的 Hash 和 KeyEqual 函数:
class cstr_hash
{
public:
std::size_t operator()(const char *cstr) const
{
std::size_t hash = 5381;
for ( ; *cstr != '\0' ; ++cstr)
hash = (hash * 33) + *cstr;
return hash;
}
};
class cstr_eq
{
public:
using value_type = const char*;
bool operator()(const char* a, const char *b) const
{ return strcmp(a, b) == 0; }
};
然后使用 map :
std::unordered_map<const char *, int, cstr_hash, cstr_eq> nodes;
但这种方法是不可取的,因为它更难避免内存泄漏,并且不会优化像 std::string
这样的短字符串。做。
char* kmers[num_kmers][3];
这不是 C++。大多数编译器都支持 VLA(可变长度数组),但它不是标准的一部分。更好用std::vector<std::string>
.
内存泄漏。您使用 malloc 分配字符串,并且从不释放它们。最好使用 std::string 并传递它,这样代码中就不再使用 malloc。
unordered_map
通常效率低于 std::map
对于少于 10,000 个元素的容器。对于基因组数据,您有可能遇到 std::unordered_map
的情况。值得,但我会对此进行测试(尤其是对于内部容器)。
另一个问题是使用 std::endl
,这会使您的代码运行速度慢 2-10 倍。你应该使用 '\n'
而不是 endl
.什么endl
所做的是刷新行尾的输出。在许多情况下,额外的系统调用会在性能方面产生很大的不同。当然,如果这只是调试代码那就无所谓了。
关于c++ - 使用 char* 作为 unordered_map 的键不能识别重复的键,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54471914/
我目前正在寻找 std::map 的更好替代方案,并且遇到了帖子标题中提到的类。有人可以阐明它们之间的区别,不是在性能/API 方面,而是在它们与当前和 future 的通信标准相关的地方。 最佳答案
我正在尝试使用一个 unordered_map 和另一个 unordered_map 作为键(自定义哈希函数)。我还添加了一个自定义的 equal 函数,尽管它可能并不需要。 代码没有达到我的预期,但
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。 这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
我正在尝试从 unordered_map 中返回 unordered_map 的拷贝。 下面的代码更清楚地说明了我的问题: typedef std::unordered_map Foo; typede
我有一个类型为unordered_map的容器,我想确认要向 map 添加元素时应使用哪个版本。我希望它使用新呈现的旧值覆盖旧的值(如果存在),如果不存在则仅添加它。 我看到insert会在元素退出时
所以我试图将 unordered_map 设置为另一个 unordered_map 的值。 现在我遇到了无法将值放入第二个 unordered_map 的问题。 我的代码看起来像这样。 std::
我有一个数据结构,它是 unordered_map 的 unordered_map: typedef std::unordered_map map1; typedef std::unordered_m
我们正在用 C++ 为学校开发一个游戏项目。我负责 map 对象,它将包含炸弹、玩家、墙壁和盒子等实体。我的 map 中有 3 个容器: 玩家的 std::list(多个玩家可以站在同一个盒子上)。
我正在使用 unordered_maps 的 unordered_map,这样我就可以使用“多键”语法来引用元素: my_map[k1][k2]。 有没有一种方便的方法可以在尝试访问之前使用相同的“多
假设我有一个 unordered_map 定义如下: unordered_map> f_table; f_table[1][3] = 10; f_table[1][2] = 1; f_table[1]
我正在 interviewbit.com 上解决竞争性编程问题我基本上使用 unordered_map 来跟踪访问过的数字。当我使用 operator[] 时,我的代码无法及时执行,但是当我使用 fi
我有一张 map ,如下所示。 struct B { int b1; int b2; int b3; }; struct A { B a1; B a2; }; unordered
我有以下数据结构问题?你能帮帮我吗?所以我的要求是在我将新数据项添加到此 map 时将此数据结构初始化为默认值。 我怎样才能有效地做到这一点? 对于我要添加的每个条目,我需要将 a1、a2、a3 设置
对于我的下一个任务,我需要使用一个非常大的散列;因为我有一个旧的编译器,所以我不能使用 C++0x std::unordered_map。理想情况下,我需要调用 reserve 为大量元素提前腾出空间
我不明白为什么这个简短示例中的第二个代码块无法正确编译。我的理解是 <> 中的第二个参数表示值,它不需要是唯一的。为什么第二个代码块抛出编译器错误,我需要做什么来补救它? // Unordered M
这段代码运行成功,结果为“Character Found”。 unordered_map mp; mp['a'] = 'b'; char b='b'; if(mp['a'] && mp['a'] ==
std::unordered_map::emplace和std::unordered_map::insert在C++中有什么区别? 最佳答案 unordered_map::insert 将键值对复制或
哪个更有效率?有什么好的基准吗? 最佳答案 C++11 的 std::unordered_map 规范类似于基于 tr1::unordered_map 的 boost::unordered_map。话
使用 gcc 4.8.1 和 libboost 1.53,根据我用于编译代码的优化级别,我得到了不同的结果。作为更大程序的一部分,函数 insertValues 对相同的 a、key 和 value
我正在尝试使用 boost::mulprecision 类型创建一个 STL(或 boost)unordered_map,例如cpp_int 但 gcc 在尝试将元素插入此容器后抛出错误。 #incl
我是一名优秀的程序员,十分优秀!