白血病细胞系实验GI50值精选数据集
该数据集包含针对三种人类白血病细胞系(K-562、CCRF-CEM和HL-60(TB))的69,270个化合物-活性对,数据模态包括化合物的SMILES字符串表示、经过对数转换的生物活性值(pGI50)以及基于阈值的二元活性标签,主要用于白血病药物反应预测、化合物活性分类与回归等机器学习研究,支持药物发现和筛选应用。
创建时间2026-05-02
更新时间2026-05-02
资源简介
该数据集通过整合Aljarf等人报告的数据和ChEMBL数据库中的化合物生物活性数据构建而成,专门针对三种人类白血病细胞系(K-562、CCRF-CEM和HL-60(TB))。经过数据集成和质量控制(包括去重和剔除不一致记录),最终获得包含69,270个化合物-活性对的数据集,其中K-562有28,602对,CCRF-CEM有27,850对,HL-60(TB)有12,818对。每个化合物以SMILES字符串表示,并关联经过对数转换的生物活性值(pGI50),同时提供基于pGI50阈值划分的二元活性标签(活性/非活性)。数据集已针对类别不平衡问题进行了平衡处理,适用于回归和分类等机器学习任务,主要用于白血病药物反应预测和化合物筛选研究。
提供机构:Zenodo
精度瓶颈?数据缺失?
当前公开数据无法满足您的算法精度?千方提供针对 白血病 的高质量、多模态真实临床数据定制解决方案。