python - 值错误 : BitVects must be same length (rdkit)-6ren

python - 值错误 : BitVects must be same length (rdkit)

转载作者：行者123 更新时间：2023-12-01 23:22:20

25

4

我正在使用 rdkit 计算 2 个摩尔之间的结构相似性概况。当我在 google colab (rdkit=2020.09.2 python=3.7) 中运行该程序时，该程序运行正常。

我在 PC 上运行时遇到错误 (rdkit=2021.03.2 python=3.8.5)。错误有点奇怪。数据框包含 500 行，代码仅适用于前 10 行 (0-9)，对于后面的行，我收到错误

 s = DataStructs.BulkTanimotoSimilarity(fps_2[n], fps_2[n+1:]) 
    ValueError: BitVects must be same length

代码块如下所示

  data = pd.read_csv(os.path.join(os.path.join(os.getcwd(), "dataset"), "test_ssp.csv"), index_col=None)
 
  
  #Proff and make a list of Smiles and id
  c_smiles = []
  count = 0
  for index, row in data.iterrows():
    try:
      cs = Chem.CanonSmiles(row['SMILES'])
      c_smiles.append([row['ID_Name'], cs])
    except:
      count = count + 1
      print('Count Invalid SMILES:', count, row['ID_Name'], row['SMILES'])

  # make a list of id, smiles, and mols
  ms = []
  df = DataFrame(c_smiles,columns=['ID_Name','SMILES'])
  for index, row in df.iterrows():
    mol = Chem.MolFromSmiles(row['SMILES'])
    ms.append([row['ID_Name'], row['SMILES'], mol])

  # make a list of id, smiles, mols, and fingerprints (fp)
  fps = []
  df_fps = DataFrame(ms,columns=['ID_Name','SMILES', 'mol'])
  df_fps.head

  for index, row in df_fps.iterrows():
    fps_cal = FingerprintMols.FingerprintMol(row['mol'])
    fps.append([row['ID_Name'], fps_cal])


  fps_2 = DataFrame(fps,columns=['ID_Name','fps'])
  fps_2 = fps_2[fps_2.columns[1]]
  fps_2 = fps_2.values.tolist()


  # compare all fp pairwise without duplicates
  for n in range(len(fps_2)): 
      s = DataStructs.BulkTanimotoSimilarity(fps_2[n], fps_2[n+1:])
      for m in range(len(s)):
          qu.append(c_smiles2[n])
          ta.append(c_smiles2[n+1:][m])
          sim.append(s[m])

您能告诉我为什么当代码在 Google Colab 中运行良好时我的 PC 上会出现此错误吗？我该如何解决这个问题？有没有办法安装rdkit=2020.09.2？

可重现的数据

DB00607 [H][C@]12SC(C)(C)[C@@H](N1C(=O)[C@H]2NC(=O)C1=C(OCC)C=CC2=CC=CC=C12)C(O)=O
DB01059 CCN1C=C(C(O)=O)C(=O)C2=CC(F)=C(C=C12)N1CCNCC1
DB09128 O=C1NC2=CC(OCCCCN3CCN(CC3)C3=C4C=CSC4=CC=C3)=CC=C2C=C1
DB04908 FC(F)(F)C1=CC(=CC=C1)N1CCN(CCN2C(=O)NC3=CC=CC=C23)CC1
DB09083 COC1=C(OC)C=C2[C@@H](CN(C)CCCN3CCC4=CC(OC)=C(OC)C=C4CC3=O)CC2=C1
DB08820 CC(C)(C)C1=CC(=C(O)C=C1NC(=O)C1=CNC2=CC=CC=C2C1=O)C(C)(C)C
DB08815 [H][C@@]12[C@H]3CC[C@H](C3)[C@]1([H])C(=O)N(C[C@@H]1CCCC[C@H]1CN1CCN(CC1)C1=NSC3=CC=CC=C13)C2=O
DB09143 [H][C@]1(C)CN(C[C@@]([H])(C)O1)C1=CC=C(NC(=O)C2=CC=CC(=C2C)C2=CC=C(OC(F)(F)F)C=C2)C=N1
DB06237 COC1=C(Cl)C=C(CNC2=C(C=NC(=N2)N2CCC[C@H]2CO)C(=O)NCC2=NC=CC=N2)C=C1
DB01166 O=C1CCC2=C(N1)C=CC(OCCCCC1=NN=NN1C1CCCCC1)=C2
DB00813 CCC(=O)N(C1CCN(CCC2=CC=CC=C2)CC1)C1=CC=CC=C1

最佳答案

要首先回答如何安装特定版本的 Rdkit，您可以运行此命令:

conda install -c rdkit rdkit=2020.09.2

回到原来的问题，错误是因为函数:

FingerprintMols.FingerprintMol()

无论出于何种内部原因，它将前 10 个 SMILES 转换为 2048 长度向量，而将第 11 个 SMILES 转换为 1024 长度向量。旧版本能够处理这种不匹配，但新版本不能。有两个选项可以解决此问题:

使用我上面提到的命令将 RdKit 降级到旧版本。
通过将向量作为参数传递来固定向量的长度。基本上，替换行

FingerprintMols.FingerprintMol(row['mol'])

与

FingerprintMols.FingerprintMol(row['mol'], minPath=1, maxPath=7, fpSize=2048,
                               bitsPerHash=2, useHs=True, tgtDensity=0.0,
                               minSize=128)

在替换中，除 fpSize 之外的所有参数都设置为其默认值，并且 fpSize 固定为 2048。请注意，您必须传递所有参数，而不仅仅是 fpSize。

关于python - 值错误 : BitVects must be same length (rdkit)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67878866/

25

4

0

文章推荐： amazon-web-services - 从 aws lambda 函数返回图像

文章推荐： powershell - jsonpath 与 kubectl 获取 "app.kuberentes.io/version"值

文章推荐： javascript - 将数据(文本)复制到 Vue 中的剪贴板(Nuxt js)

python - "length and length"与 Python 中的 "length"有什么不同吗？
我找到了以下代码片段: length = length and length or len(string) 在我看来，这应该等同于: length = length or len(string) 我能
python - 一维数组形状 (length,) vs. (length,1) vs. (length)
当我使用 numpy.shape() 检查数组的形状时，我有时会得到 (length,1) 有时会得到 (length,)。看起来区别在于列向量与行向量......但它似乎并没有改变数组本身的任何内容
java - 在 Java 中这是什么意思 "length >= 0 ? length : length * -1"
我正在学习 Java，有一个简单的问题。在设置类的示例中，我看到了这一点: length >= 0 ? length : length * -1 这是什么意思？谢谢。最佳答案这是一种骇人听闻的
ruby - Ruby 的 length 方法是一个符号吗？为什么是:length sometimes the same as length?
我在阅读有关在 Ruby 中重新定义方法有多么容易的文章时遇到了以下问题: class Array alias :old_length :length def length old_l
java - .length() 与 .getText().length() 与 .getText().toString().length()
例如在下面的代码中a和b和c是相等的。 EditText editText; editText = (EditText) findViewById(R.id.edttxt); editText.set
javascript - 为什么 `Array.length` 、 `Function.length` 、 `String.length` 等返回 1？
在昨天教授我的 JavaScript 类(class)时，我和我的学生遇到了一些有趣的功能，我认为这些功能可能值得在一个问题和我得出的答案中捕捉到。在 Chrome 的 JS 控制台中输入 Arra
java - 何时使用 .length 与 .length()
这个问题在这里已经有了答案: How can I get the size of an array, a Collection, or a String in Java? (3 个回答) 3年前关闭。
java - length 和 length() 有什么区别？
这个问题在这里已经有了答案: length and length() in Java (8 个答案) 关闭 6 年前。我注意到在计算数组的长度时，你会这样写: arrayone.length; 但
angular - this.slides.length() 无法读取未定义的属性 'length'
console.log(this.slides.length()); 打印 Cannot read property 'length' of undefined.在 setTimeout 为 100
r - 从CRAN安装软件包时警告 “downloaded length != reported length”
在搜索stackoverflow问题时，我发现了此链接: Error in file.download when downloading custom file。但是，我的情况有些不同(我认为):
r - seq(...) 参数 "length.out"与 "length"
这个问题已经有答案了: Why does R use partial matching? (1 个回答) 已关闭 8 年前。大家。我刚刚开始使用 swirl 学习 R 编程。我刚刚了解到seq 。
r - seq(...) 参数 "length.out"与 "length"
这个问题已经有答案了: Why does R use partial matching? (1 个回答) 已关闭 8 年前。大家。我刚刚开始使用 swirl 学习 R 编程。我刚刚了解到seq 。
java - 使用 .length 和 .length() 求长度有什么区别
这个问题已经有答案了: How can I get the size of an array, a Collection, or a String in Java? (3 个回答) 已关闭 9 年前。
javascript - 在没有 length 属性的变量上使用 .length 会导致崩溃
我有一个大数组，其中包含所有类型( bool 值，数组，null，...)，并且我正在尝试访问它们的属性arr[i].length，但有些其中显然没有长度。我不介意那些缺少长度的人是否返回未定义(我
javascript 测试 .length 和 .length > 0
我在对象的属性中有一些文本。我正在测试对象的属性中是否有要显示的文本；如果没有，那么我显示“-”而不是空白。看起来没有什么区别: if (MyObject.SomeText && MyObject.S
java - String.length() 与 Array.length
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Why is String.length() a method? Java - Array's length
javascript - (obj.length === +obj.length) 比较什么？
这个问题在这里已经有了答案: obj.length === +obj.length in javascript (4 个答案) 关闭 9 年前。我一直在读underscore.js源代码并在 _.
c++ - 两个单词的长度相加产生错误答案(string0.length() + string1.length())
#include using std::cout; using std::cin; using std::string; int main(){ cout > name; cout
javascript - obj.length 什么时候不等于+obj.length？
我正在细读 underscore.js annotated source当我遇到这个时: if (obj.length === +obj.length) {...} 我现在从this stackove
c# - (args 之间的区别是 { Length : > 0}) and args. Length?
我正在查看 dotnet 运行时中的一些代码，我注意到不是这样写的: if (args.Length > 0) 他们使用这个: if (args is { Length: > 0}) 你知道用第二种方

首页

博学

6Ren·AI

商城

python - 值错误 : BitVects must be same length (rdkit)