人类基因组的很大一部分显示出与至少一个其他基因组序列的高度序列相似性,这对从短读长测序数据中识别体细胞突变提出了挑战。有鉴于此,英国伦敦玛丽女王大学的Tomasz Konopka、英国伦敦弗朗西斯·克里克研究所的Peter Van Loo和Maxime Tarabichi等研究人员,分析了人类基因组非独特区域体细胞突变的泛癌景观。
本文要点
1)研究人员注释了来自全基因组泛癌分析 (PCAWG) 队列的 2,658 种癌症的基因组变异,并链接到人类基因组中的相似位点。
2)研究人员训练机械学习模型以使用分布在多个基因组位点上的信号来调用非唯一区域中的体细胞事件,并根据独立数据集中的链接读取测序验证数据。
3)使用这种方法,研究人员在大约 1,700 个编码序列和数千个调控元件中发现了以前隐藏的突变,包括已知的癌症基因、免疫球蛋白和高度突变的基因家族。
4)在突变负荷和替代谱方面,非独特区域的突变与独特区域的突变一致。
本文研究中的分析提供了跨多种人类癌症在全基因组范围内非独特区域突变事件的系统总结。
参考文献:
Maxime Tarabichi, et al. A pan-cancer landscape of somatic mutations in non-unique regions of the human genome. Nature Biotechnology, 2021.
DOI:10.1038/s41587-021-00971-y
https://www.nature.com/articles/s41587-021-00971-y