转录因子(transcription factors, TFs)是如何解释顺式调控DNA序列来控制基因表达的,目前尚不清楚,这主要是由于以往使用天然和工程序列的研究规模不够。近日,美国麻省理工学院-哈佛大学博德研究所Aviv Regev、Carl G. de Boer的研究小组合作,利用1亿个随机启动子破译了真核生物基因调控逻辑。研究人员测量了1亿多个完全随机的合成酵母启动子序列的表达输出。这些序列产生多样的、可重复的表达水平,这可以通过它们偶然包含功能性TF结合位点来解释。研究人员使用机器学习来构建可解释的转录调控模型,其预测约94%的表达来自独立的测试启动子,而约89%的表达来自天然酵母启动子片段。这些模型使研究人员能够表征每个TF的特异性、活性和与染色质的相互作用。TF活性取决于结合位点链、位置、DNA螺旋面和染色质状况。值得注意的是,表达水平受弱调控相互作用的影响,这使设计序列研究感到困惑。研究人员的分析表明,完全随机DNA的高通量检测可以提供开发复杂的预测性基因调控模型所需的大数据。
Carl G. de Boer, Eeshit Dhaval Vaishnav, Ronen Sadeh, et al. Deciphering eukaryotic gene-regulatory logic with 100 million random promoters. Nature Biotechnology, 2019.
DOI: 10.1038/s41587-019-0315-8
https://www.nature.com/articles/s41587-019-0315-8