c++ - 使用 char* 作为 unordered_map 的键不能识别重复的键-6ren

c++ - 使用 char* 作为 unordered_map 的键不能识别重复的键

转载作者：行者123 更新时间：2023-11-28 01:24:38

26

4

我正在构建一个 De Bruijn Assembly 示例，用于组装基因组(或任何字符串)，方法是获取字符串长度为 n 的每个可能的单词，然后通过比较每个单词的结尾部分找到正确的读取路径节点。它接受一个序列和每个序列读取的大小作为参数，它首先将所有读取收集到一个大小为 [kmer_size][3] 的数组中，[3] 索引 0=完整读取 1=读取的最右边字符以外的所有字符 2=读取的最左边字符以外的所有字符。

组装 reads 的部分按预期工作，它被分成一个函数并且这些 reads 被正确打印。

然后我创建了一个 unordered_map，使用 char* 作为键，另一个 map 作为值，该映射由 char* 键控并由 int 赋值。

应该发生的是它应该检查除了最左边的字符之外的读取部分是否与彼此读取的相同部分匹配，如果它们匹配，则获取匹配读取的右侧排除部分并创建一个新条目在由您正在测试的读取的左排除部分键入的内部映射中，将该元素的值增加 1。

如果您查看输出，您会发现当我在一个单独的循环中打印嵌套 map 的内容时，外部 map 和内部 map 中都有重复的条目。具有相同字符串值的 char* 键不会将项目放入同一个桶中，而是创建一个具有相同名称的新桶。我假设这是因为 char* 实际上是一个字符串值，而是一个地址，它们指向不同的地址。

我将如何修改此代码以允许我的 map 每个字符串只有 1 个桶

#include<stdio.h>
#include<string.h>
#include<iostream>
#include<bits/stdc++.h> 
#include<unordered_map>

using namespace std;

void extractReads(char* kmers[][3], int num_kmers, int kmer_size, char* seq);

int main(int nargs, char* args[]){
    if(nargs!=3){
        cout<<"INVALID ARGUMENTS"<<endl;
        cout<<"dba <kmer_size> <sequence>"<<endl;
    }
    char* seq = args[2];
    int kmer_size = atoi(args[1]);
    int num_kmers = strlen(seq)-(kmer_size -1);
    char* kmers[num_kmers][3];
    unordered_map<char*, unordered_map<char*, int> > nodes;

    extractReads(kmers, num_kmers, kmer_size, seq);

    for(int i=0; i< num_kmers; i++)
    {
        for(int j=0; j<num_kmers; j++)
        {
            if(strcmp(kmers[i][2], kmers[j][2]) == 0 )
            {
                // cout<<" match"<<endl;
                nodes[kmers[i][2]][kmers[j][1]]++;
            }

        }
    }

    for(auto node: nodes)
    {
        cout<<node.first<<endl;
        for (auto n: node.second)
        {
            cout<<" "<<n.first<<" "<<n.second<<endl;
        }
    }

    return 0;
}



void extractReads(char* kmers[][3], int num_kmers, int kmer_size, char* seq)
{
    cout<<"READS"<<endl<<"==========="<<endl;
    for (int i=0; i<num_kmers; i++){
        kmers[i][0] = (char*) malloc(kmer_size);
        kmers[i][1] = (char*) malloc(kmer_size-1);
        kmers[i][2] = (char*) malloc(kmer_size-1);
        strncpy(kmers[i][0], seq+i, kmer_size);
        strncpy(kmers[i][1], kmers[i][0], kmer_size-1);
        strncpy(kmers[i][2], kmers[i][0]+1, kmer_size-1);
        cout<<kmers[i][0]<<" : "<<kmers[i][1]<<" "<<kmers[i][2]<<endl;
    }    
    cout<<"==========="<<endl;

}

最佳答案

您的代码有很多问题(正如对问题的评论所暗示的那样)，我将在答案末尾列出它们，因为它们与问题的核心无关。

正如您所怀疑的那样，有问题的行是:

unordered_map<char*, unordered_map<char*, int> > nodes

如你所说

this is because char* is actually a string value but an address and they are pointing to different addresses.

换句话说，您的字符串 (kmers) 作为指针进行比较。如果两个char *对象分配有两个不同的 malloc 调用，然后它们具有不同的地址。 unordered_map只比较地址，而不比较地址处的字符集。

解决方案是开始使用 C++ 字符串而不是 C 零终止字符串:

std::unordered_map<std::string, std::unordered_map<std::string, int> > nodes

这将解决您的代码存在的其他问题:

您的代码存在内存泄漏。它使用 malloc 分配内存并且从不释放它。使用 std::string解决问题。
kmers 往往是相对较短的字符串(大多数少于 12 个字母)。 std::string正是针对这种情况进行了优化，并完全避免了这些字符串的堆内存。使用 std::string 代码将运行得更快通过避免不必要的堆分配。

另一种不太理想的选择是提供您自己的 Hash 和 KeyEqual 函数:

class cstr_hash
{
   public:
      std::size_t operator()(const char *cstr) const
      {
          std::size_t hash = 5381;
          for ( ; *cstr != '\0' ; ++cstr)
             hash = (hash * 33) + *cstr;
          return hash;
      }
};
class cstr_eq
{
   public:
     using value_type = const char*;
     bool operator()(const char* a, const char *b) const
     { return strcmp(a, b) == 0; }
};

然后使用 map :

 std::unordered_map<const char *, int, cstr_hash, cstr_eq> nodes;

但这种方法是不可取的，因为它更难避免内存泄漏，并且不会优化像 std::string 这样的短字符串。做。

您的代码存在的其他一些不相关的问题:

 char* kmers[num_kmers][3];

这不是 C++。大多数编译器都支持 VLA(可变长度数组)，但它不是标准的一部分。更好用std::vector<std::string> .

内存泄漏。您使用 malloc 分配字符串，并且从不释放它们。最好使用 std::string 并传递它，这样代码中就不再使用 malloc。

unordered_map通常效率低于 std::map对于少于 10,000 个元素的容器。对于基因组数据，您有可能遇到 std::unordered_map 的情况。值得，但我会对此进行测试(尤其是对于内部容器)。

另一个问题是使用 std::endl ，这会使您的代码运行速度慢 2-10 倍。你应该使用 '\n'而不是 endl .什么endl所做的是刷新行尾的输出。在许多情况下，额外的系统调用会在性能方面产生很大的不同。当然，如果这只是调试代码那就无所谓了。

关于c++ - 使用 char* 作为 unordered_map 的键不能识别重复的键，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54471914/

26

4

0

文章推荐： c++ - 覆盖 find_package 的默认搜索顺序

文章推荐： c++ - 如何在类中分配多维数组？当行 > 列时会抛出错误？

文章推荐： javascript - 使用 HTML5 在 Canvas 上绘制图像

文章推荐： c++ - 使用正则表达式的条件组匹配

javascript - (不能)在javascript中获取元素样式的一部分
我是 javascript 的新手(今天开始弄乱它)。我正在尝试更改名为“bar”的元素(div)的高度。条形图将成为图表的一部分。我可以毫无问题地将按钮连接到更改栏高度的函数。一切正常，除了条形
ios - 不能 "addSubView"
错误 -> “UIVIew”没有名为“addSubView”的成员 override func viewDidLoad() { super.viewDidLoad() // Do an
swift - 不能 CGEventTapCreate
我在命令行工具项目中复制并粘贴了 main.swift 下面链接中的代码。 How do you use CGEventTapCreate in Swift? 它构建没有错误，但是当我运行时， gua
c++ - 不能 dynamic_cast
我在尝试编译我的代码时遇到以下错误。 ERROR! ..\myCode\CPOI.cpp:68:41: error: cannot dynamic_cast 'screenType' (of type
不能 strcat_s 多个字符到字符串指针
我正在尝试将多个字符串连接到一个我已为其分配内存的字符串指针。这是一个例子: char *finalNumString = malloc(sizeof(char)*1024); finalNumStr
不能 dup2 将管道的末端写入标准输出
我在使用 dup2() 和 pipe() 时遇到问题。当我尝试将管道的写入端 dup2 到 STDOUT_FILENO 时，我收到了 EBADF。我用 gdb 在 dup2(pout[1], ST
Git:不能 pull
首先，我应该说我运行的是 Windows 7。因此，今天早上我尝试像往常一样从我的存储库中提取数据，但我做不到。我得到了错误: The authenticity of host 'github.co
python - 不能 "activate"virtualenv
刚开始在虚拟环境中运行Python，乱用Django，无法激活虚拟环境。花了最后 4 个小时尝试在本地终端/VS 代码上激活虚拟环境 (venv)，但没有成功。避免使用“sudo pip inst
r - 数据框可以做什么而 tibble 不能？
Tidyverse 的粉丝经常给出使用小标题而不是数据框的几个优点。它们中的大多数似乎旨在保护用户免于犯错误。例如，与数据框不同，小标题: 不需要 ,drop=FALSE不从数据中删除维度的论据。不
javascript - 不能 Dockerize Elm
我一直在对 Elm 应用程序进行 docker 化时遇到问题。据我所知，我已经创建了一个完整且有效的 Docker 文件……但它不起作用。我会解释的。所以我的脚本在 3 个文件中运行。首先是启动
java - 不能 Mockbean HttpServletResponse
我可以在 Controller 中使用@Autowired，例如 @RestController public class Index { @Autowired HttpServlet
function - 不能 `compose` 和方法和函数
我定义了一个方法和一个函数: def print(str:String) = println val intToString = (n:Int) => n.toString 现在我想创作它们。我的问
javascript - 不能 .map() 一个看似数组的值
当我控制台单独记录变量“pokemons”时，它确实返回一个数组。但是当我尝试映射它时，出现错误: TypeError: pokemons.map is not a function 我的代码: im
python - 不能 `import smtplib`
每当我尝试在 Python 解释器中导入 smtplib 时，都会收到此错误: ImportError: cannot import name fix_eols 我该如何解决这个问题？编辑:这是完整
javascript - 为什么 {{#each}} 可以正常工作而 {{#with}} 不能？
我正在使用 Meteor.js 开发一个项目，但在使用 Handlebar 时遇到了一些问题:我想检索集合的最后一项，并显示字段:其中包含 html 的文本: 这是我的javascript代码: Te
java - onTouchEvent 不能@Override
你好，我想使用 Service 实现 GestureDetector 但是我有这个错误The method onTouchEvent(MotionEvent) of type GestureServi
java - 不能@Autowired接口(interface)
我正在尝试在 Controller bean 中 Autowiring 接口(interface) 在我放置的上下文配置文件中和我的 Controller 类是 @Controller pub
c++ - 不能 #include
我试图在 mainwindow.cpp 中包含 QtSvg，但是当我编译时它说无法打开包含文件:QtSvg。我已经在我的 *.pro 文件中添加了这个(QT += svg)。我可以知道可能是什么问题吗
postgresql - 不能 100% 确定这是否安全
鉴于以下 PostgreSQL 代码，我认为这段代码不容易受到 SQL 注入(inject)攻击: _filter 'day' _start 1 _end 10 _sort 'article_name
MYSQL:不能/如何将子查询用作完全合格的 CTE
我想执行以下操作。这在 MySQL 中是非法的。 PostGRESQL 中关联的 CTE(“with”子句)有效。这里的假设是 MySQL 中的子查询不是完全限定的 CTE。请注意:这个查询显然非常

首页

博学

6Ren·AI

商城

c++ - 使用 char* 作为 unordered_map 的键不能识别重复的键