gpt4 book ai didi

c# - 如何在没有枚举的情况下访问 HashSet 的引用值?

转载 作者:太空狗 更新时间:2023-10-29 20:11:22 26 4
gpt4 key购买 nike

我有这样一个场景,其中内存保护是最重要的。我正在尝试将 > 1 GB 的肽序列读入内存并将共享相同序列的肽实例组合在一起。我将 Peptide 对象存储在一个 Hash 中,这样我可以快速检查重复,但我发现您无法访问 Set 中的对象,即使知道 Set 包含该对象也是如此。

内存真的很重要,我不想尽可能地复制数据。 (否则我会将我的数据结构设计为:peptides = Dictionary<string, Peptide> 但这会在字典和 Peptide 类中复制字符串)。下面是向您展示我想要完成的任务的代码:

public SomeClass {

// Main Storage of all the Peptide instances, class provided below
private HashSet<Peptide> peptides = new HashSet<Peptide>();

public void SomeMethod(IEnumerable<string> files) {
foreach(string file in files) {
using(PeptideReader reader = new PeptideReader(file)) {
foreach(DataLine line in reader.ReadNextLine()) {
Peptide testPep = new Peptide(line.Sequence);
if(peptides.Contains(testPep)) {

// ** Problem Is Here **
// I want to get the Peptide object that is in HashSet
// so I can add the DataLine to it, I don't want use the
// testPep object (even though they are considered "equal")
peptides[testPep].Add(line); // I know this doesn't work

testPep.Add(line) // THIS IS NO GOOD, since it won't be saved in the HashSet which i use in other methods.

} else {
// The HashSet doesn't contain this peptide, so we can just add it
testPep.Add(line);
peptides.Add(testPep);
}
}
}
}
}
}

public Peptide : IEquatable<Peptide> {
public string Sequence {get;private set;}
private int hCode = 0;

public PsmList PSMs {get;set;}

public Peptide(string sequence) {
Sequence = sequence.Replace('I', 'L');
hCode = Sequence.GetHashCode();
}

public void Add(DataLine data) {
if(PSMs == null) {
PSMs = new PsmList();
}
PSMs.Add(data);
}

public override int GethashCode() {
return hCode;
}

public bool Equals(Peptide other) {
return Sequence.Equals(other.Sequence);
}
}

public PSMlist : List<DataLine> { // and some other stuff that is not important }

为什么 HashSet不是让我得到HashSet 中包含的对象引用吗?我知道人们会试着说如果HashSet.Contains()返回真,你的对象是等价的。它们在值方面可能是等价的,但我需要相同的引用,因为我在 Peptide 类中存储了额外的信息。

我想到的唯一解决方案是 Dictionary<Peptide, Peptide>其中键和值都指向同一个引用。但这似乎很俗气。是否有另一种数据结构来实现这一点?

最佳答案

基本上你可以重新实现 HashSet<T>你自己,但这是我所知道的唯一解决方案。 Dictionary<Peptide, Peptide>Dictionary<string, Peptide>解决方案可能不是低效的 - 如果您只是在每个条目上浪费一个引用,我想这将是相对微不足道的。

事实上,如果你删除 hCode来自Peptide的成员(member),这将为每个对象节省 4 个字节,无论如何它与 x86 中的引用大小相同......据我所知,缓存哈希没有意义,因为你只会计算每个对象的哈希一次,至少在您显示的代码中。

如果您真的极度需要内存,我怀疑您可以比 string 更有效地存储序列.如果您向我们提供有关该序列包含的内容的更多信息,我们可能会在那里提出一些建议。

我不知道有什么特别强烈的理由为什么 HashSet不允许这样做,除了这是一个相对罕见的要求 - 但这是我在 Java 中看到的要求......

关于c# - 如何在没有枚举的情况下访问 HashSet<TValue> 的引用值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7290443/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com