python - 是否可以将存储在 Pandas 数据帧中的 SMILE 结构直接输入 RDKit 以计算分子指纹和相似性？-6ren

python - 是否可以将存储在 Pandas 数据帧中的 SMILE 结构直接输入 RDKit 以计算分子指纹和相似性？

转载作者：行者123 更新时间：2023-12-04 08:04:03

26

4

ref_Molecule = Chem.MolFromSmiles('CC1=C(C(O)=O)C2=CC(=CC=C2N=C1C3=CC=C(C=C3)C4=CC=CC=C4F)F')

merged_data['Molecule_Tan'] = DataStructs.TanimotoSimilarity(Chem.RDKFingerprint(ref_Brequinar), Chem.RDKFingerprint(Chem.MolFromSmiles(merged_data.SMILES)))

我的 df 中存储了大约 1500 个 SMILES 结构，merged_data['SMILES']。
我正在尝试创建一个名为“Molecule_Tan”的合并数据的新列，我想用数据框微笑的 Tanimoto 相似性指数与存储在 ref_Molecule 中的引用序列进行填充。 .
我尝试通过使用 merged_data.SMILES 将 SMILE 值直接从数据帧传递到嵌套的 RDKit 函数中来提高效率。或 merged_data['SMILES'] ，但是当我尝试运行它时，我收到此错误..

Traceback (most recent call last):
  File "filepath", line 69, in <module>
    strasd = Chem.MolFromSmiles(merged_data['SMILES'].astype('object'))

TypeError: No registered converter was able to produce a C++ rvalue of type class std::basic_string<wchar_t,struct std::char_traits<wchar_t>,class std::allocator<wchar_t> > from this Python object of type Series

如果我尝试仅提供 Chem.MolFromSmiles() 数据框，也会发生此错误。
虽然我不是 100% 清楚，但我认为该错误与 Pandas 数据框试图给 MolFromSmiles() 函数一个系列而不是单个对象有关。
我想弄清楚的是，是否有一种方法可以管理我在 Pandas 中尝试做的事情，而无需编写循环来遍历整个数据框。
感谢任何可以给我一些关于我正在尝试做的事情是否可行的意见的人!!!
==============
如果有帮助，这大致就是我的数据框的重要部分的样子......

      Title  ...                                             SMILES
0    236254  ...           Cc1c(-c2ccccc2)n(O)[n+]([O-])c1-c1ccccc1
1     79582  ...                        [O-][n+]1nc2ccccc2c2ccccc21
2     26744  ...                     O=c1cc(-c2ccccc2)oc2ccc(O)cc12
3     38007  ...                     Oc1cc(-c2ccc(Cl)cc2)nc2ccccc12
4    109747  ...                  Cc1cc(O)c2cc(C(=O)c3ccccc3)ccc2n1
..      ...  ...                                                ...

最佳答案

你是对的，pandas 给出整个系列而不是单个对象，所以你必须迭代。
但是指纹可以立即与BulkTanimotoSimilarity()进行比较。 .
你可以试试这个代码:

from rdkit import Chem
from rdkit import DataStructs
import pandas as pd

target = Chem.RDKFingerprint(Chem.MolFromSmiles('CC1=C(C(O)=O)C2=CC(=CC=C2N=C1C3=CC=C(C=C3)C4=CC=CC=C4F)F'))

d = {'SMILES': ['Cc1c(-c2ccccc2)n(O)[n+]([O-])c1-c1ccccc1',
                '[O-][n+]1nc2ccccc2c2ccccc21',
                'O=c1cc(-c2ccccc2)oc2ccc(O)cc12',
                'Oc1cc(-c2ccc(Cl)cc2)nc2ccccc12',
                'Cc1cc(O)c2cc(C(=O)c3ccccc3)ccc2n1']}

df = pd.DataFrame(data=d)

df['Tanimoto'] = DataStructs.BulkTanimotoSimilarity(target, [Chem.RDKFingerprint(Chem.MolFromSmiles(s)) for s in df['SMILES']])

print(df)

输出:

                                     SMILES  Tanimoto
0  Cc1c(-c2ccccc2)n(O)[n+]([O-])c1-c1ccccc1  0.287625
1               [O-][n+]1nc2ccccc2c2ccccc21  0.178967
2            O=c1cc(-c2ccccc2)oc2ccc(O)cc12  0.273179
3            Oc1cc(-c2ccc(Cl)cc2)nc2ccccc12  0.387127
4         Cc1cc(O)c2cc(C(=O)c3ccccc3)ccc2n1  0.319298

关于python - 是否可以将存储在 Pandas 数据帧中的 SMILE 结构直接输入 RDKit 以计算分子指纹和相似性？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66308319/

26

4

0

文章推荐： reactjs - 如何对react-native-svg多边形元素进行动画处理？

文章推荐： python - 从嵌入的消息中获取内容？

C 直接/显式传递参数
如果我在 C 中调用一个函数并传入一个结构(对那些 C++ 读者来说不是通过指针或引用)，它会复制该对象。如果我传入一个包含数组的结构，它会复制该数组(如教授在类里面所说)。但是，如果我传入一个包含对
vim - 如何*直接*增加光标下的数字？
在 vim 等中，您可以使用 CTRLA 和 CTRLX 增加或减少光标所在的数字。然而，这会增加总数，但我想简单地增加光标正下方的数字。这有点难以描述，所以这就是我的意思: Ctrl+A usage
java - 直接 PropertyAccessor 的替代品？
我正在将 Spring 4.3.2 项目升级到 Spring 5.1.5。我的一个测试用例开始因错误而失败。 ClassNotFoundException: org.hibernate.propert
Java:直接 IntBuffer 的大小限制？
我想在 Java 中分配一个直接 IntBuffer，比如说 10 亿个元素(64 位系统)。我知道的唯一方法是创建一个直接 ByteBuffer 并将其视为直接 IntBuffer。但是，4*1,0
ajax - 直接 AJAX 打印
我正在寻找特定的打印机或某些打印机上存在的技术(接口(interface)、标准、协议(protocol))，这使得可以使用 AJAX 从 Web 浏览器实现直接打印。这意味着打印机必须: 网络接口
php - 直接 URL 和删除确认表
我正在寻求实现删除确认表单的最佳实践建议。除其他选项外，以下页面包含删除按钮... /website/features/f/123 ...当点击一个简单的表单时，会在以下 url 下加载: /web
java - 直接 Web 远程处理异步问题
我正在使用直接 Web 远程处理库在我的应用程序中执行一些 ajax 调用。我有一个问题，我认为归结为服务调用的延迟响应。以下是我认为有问题的部分代码。问题出在 getDefaultReviewerT
Javascript 直接 confirm() 函数替换
我想替换 Javascript confirm() 函数以允许自定义按钮而不是 Yes/Cancel。我尝试搜索，但所有解决方案都是事件驱动的，例如 jquery 对话框(代码不等待响应但它是事件驱动
java - 路径、相对、直接
我知道有几个类似的问题，但是，其中的示例并没有说明问题，或者我无法从中获利 - 我真可耻。所以我的问题是在带有 GUI 的简单应用程序中加载图像。例如: 我在 "D:\javaeclipseprog
html - 直接 child 的备用表行颜色
我想用不同的颜色为表格的行着色，所以我正在使用它 table#news tr:nth-child(even) { background-color: red; } table#news
java - 如何在Camel中使用**直接**端点实现并行处理？
下面的测试代码不起作用 from("direct:start").setExchangePattern(ExchangePattern.InOnly).threads(5).delay(2000).b
python - 直接 "plot"线段到numpy数组
我在 python 中实现的第一个项目之一是对棒渗流进行蒙特卡罗模拟。代码不断增长。第一部分是棍子渗滤的可视化。在宽度*长度的区域中，使用随机起始坐标和方向绘制具有一定长度的直棒的定义密度(棒/面积)
php - 跟踪(直接)文件下载的最佳方式
跟踪直接文件下载的最佳方法是什么？我找到了一些解决方案，例如这个: http://www.gayadesign.com/diy/download-counter-in-php-using-htacce
java - 直接 ByteBuffer 之前发生
我在一个线程中有一个直接的 ByteBuffer(堆外)，并使用 JMM 给我的一种机制将它安全地发布到另一个线程。 happens-before 关系是否扩展到由 ByteBuffer 包装的 na
java - 直接 ByteBuffer 相对与绝对读取性能
当我测试直接 java.nio.ByteBuffer 的读取性能时，我注意到绝对读取平均比相对读取快 2 倍。此外，如果我比较相对读取与绝对读取的源代码，除了相对读取维护和内部计数器外，代码几乎相同。
Angular 直接 DOM 访问？
我知道这个问题已经被问了无数次，并且在很多情况下都得到了答案。我相信我已经阅读了其中的大部分内容。不幸的是，我在这上面能找到的一切简单说明 ElementRef.nativeElement不好，不要
c - 直接 C 程序中的错误处理有什么好的习惯用法吗？
回到一些 C 语言工作。我的许多函数看起来像这样: int err = do_something(arg1, arg2, arg3, &result); 根据意图，结果由函数填充，返回值是调用的状态
xml - Worldpay 直接 XML
当我将 XML 提交到 https://secure-test.WorldPay.com/jsp/merchant/xml/paymentService.jsp 时: Personalised
opengl - XNA, 直接 X , OpenGL
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
Angular 直接 url 路由总是重定向到/home
我的 Angular 路由行为有问题。刷新或输入的 url 像/user 总是将我重定向到/home。我还在 index.html 文件中设置了。通过单击导航菜单按钮一切正常。但是一旦我尝试刷新页面

首页

博学

6Ren·AI

商城

python - 是否可以将存储在 Pandas 数据帧中的 SMILE 结构直接输入 RDKit 以计算分子指纹和相似性？