CUPiD:基于cfDNA甲基化的原发灶不明癌组织来源分类器 - 分类器数据与代码
该数据集包含基于循环游离DNA甲基化测序的基因表观遗传数据以及配套分析代码,主要用于构建和验证CUPiD分类器,以预测原发灶不明癌的组织来源,为癌症精准诊断提供生物信息学工具。数据涵盖143例已知癌症患者和106例对照的甲基化谱,以R数据文件和脚本形式提供,支持从原始测序数据到机器学习模型训练的全流程分析。
创建时间2024-02-23
更新时间2024-05-10
资源简介
该数据集是《自然·通讯》上发表的论文《A cfDNA methylation-based tissue-of-origin classifier for Cancers of Unknown Primary》的支撑代码和数据资源,用于构建CUPiD分类器。数据集包含通过甲基化结合域蛋白测序(MBD-Seq)获取的循环游离DNA(cfDNA)样本的甲基化数据,涵盖143例已知癌症类型患者和106例非癌症对照(其中79例用于训练)。数据以R数据文件(qseaSets)形式提供,包含全基因组300碱基对窗口的读段计数、拷贝数变异信息和元数据表。此外,数据集提供了一套完整的分析脚本,涵盖数据下载、预处理、差异甲基化区域计算、机器学习模型训练与评估等流程,支持在PBS-Torque系统上运行。该资源主要用于开发和应用基于cfDNA甲基化的原发灶不明癌组织来源分类器,为癌症精准诊断提供工具。
精度瓶颈?数据缺失?
当前公开数据无法满足您的算法精度?千方提供针对 原发灶不明癌 的高质量、多模态真实临床数据定制解决方案。