使用rdkit.Chem.AllChem进行毒性预测和ADME模型建立

发布时间：2023-12-18 18:55:42

RDKit是一个开源的化学信息学软件包，提供了许多功能用于分子描述符计算、分子编辑、化合物库筛选、药物设计等。

在RDKit中，可以使用rdkit.Chem.AllChem模块进行毒性预测和ADME（吸收、分布、代谢和排泄）模型的建立。

首先，我们来看一个例子，使用RDKit进行毒性预测。

from rdkit import Chem
from rdkit.Chem import AllChem
from sklearn import model_selection, preprocessing
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
import pandas as pd

# 加载数据集
data = pd.read_csv('toxicity_data.csv')

# 数据预处理
data['Mol'] = data['Smiles'].apply(lambda x: Chem.MolFromSmiles(x))
data['Descriptors'] = data['Mol'].apply(lambda x: AllChem.GetMorganFingerprintAsBitVect(x, 2, nBits=1024))

# 定义特征和标签
X = list(data['Descriptors'])
y = list(data['Toxicity'])

# 划分训练集和测试集
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=0.2)

# 标准化特征
scaler = preprocessing.StandardScaler().fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

# 建立随机森林分类器
model = RandomForestClassifier(n_estimators=100)
model.fit(X_train, y_train)

# 预测和评估
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

上述代码中，我们首先加载数据集，并进行数据预处理。数据集中包含Smiles表示的化合物和对应的毒性标签。我们使用rdkit.Chem模块将Smiles表示转化为RDKit分子对象，再用rdkit.Chem.AllChem模块计算分子的描述符，这里使用了Morgan指纹（2阶）作为描述符。然后，我们将描述符作为特征，毒性标签作为标签，划分训练集和测试集。接着，对特征进行标准化处理，以提高模型的性能。最后，我们使用随机森林分类器进行模型的建立，并进行预测和评估。

接下来，我们来看一个ADME模型的建立的例子。

from rdkit import Chem
from rdkit.Chem import AllChem
from sklearn import model_selection, preprocessing
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
import pandas as pd

# 加载数据集
data = pd.read_csv('adme_data.csv')

# 数据预处理
data['Mol'] = data['Smiles'].apply(lambda x: Chem.MolFromSmiles(x))
data['Descriptors'] = data['Mol'].apply(lambda x: AllChem.GetMorganFingerprintAsBitVect(x, 2, nBits=1024))

# 定义特征和标签
X = list(data['Descriptors'])
y = list(data['LogS'])

# 划分训练集和测试集
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=0.2)

# 建立随机森林回归模型
model = RandomForestRegressor(n_estimators=100)
model.fit(X_train, y_train)

# 预测和评估
y_pred = model.predict(X_test)
print('RMSE:', mean_squared_error(y_test, y_pred)**0.5)

上述代码中，我们同样先加载数据集，然后进行数据预处理。数据集中包含Smiles表示的化合物和对应的LogS（药物的溶解度）值。我们同样使用rdkit.Chem模块将Smiles表示转化为RDKit分子对象，再用rdkit.Chem.AllChem模块计算分子的描述符（这里同样使用了Morgan指纹），作为特征。然后，我们将描述符作为特征，LogS值作为标签，划分训练集和测试集。接着，我们使用随机森林回归模型进行模型的建立，并进行预测和评估。这里使用均方根误差（RMSE）作为评价指标。

总结来说，RDKit提供了丰富的化学信息学功能，可以用于毒性预测和ADME模型的建立。通过计算分子的描述符，将其作为特征，可以使用机器学习方法进行模型的建立和预测。