欢迎光临科肽生物官方网站! 在线留言 收藏网站 联系科肽生物 微信关注

全国免费服务热线

400-8530-851

当前位置:EPIC总体工作流程

EPIC总体工作流程

人气:178发表时间:2021-02-16 18:00【
EPIC总体工作流程
EPIC总体工作流程,是将HLA-A  33:03特异性肽输入EPIC可以了解相应的PSSM和长度分布,EPIC也支持添加新的等位基因。
 
 
EPIC总体工作流程图
 
将新的等位基因HLA-A * 33:03添加到EPIC支持的等位基因库的工作流程。HCC4006在所有三个HLA等位基因(分别为HLA-A * 33:03,HLA-B * 44:03和HLA-C * 07:06)上是纯合的。通过MS鉴定了来自HCC4006的肽段。然后使用GibbsCluster2.0获得衍生肽组。除了67个肽的杂物簇外,还鉴定了两个肽簇。一个簇与B4403的序列基序匹配(源自HLA-B * 44:03单等位基因数据集),另一个与来自NetMHCpan4.0在线主题评审器的A33:03的序列主题匹配。NetMHCpan4.0基于泛特定模式下其他HLA等位基因的训练数据生成了A33:03基序,这可以解释我们发现的基序与NetMHCpan-4.0之间的细微差异。然后,我们向EPIC输入了HLA-A * 33:03特异的肽,该肽可以自动学习PSSM和长度分布,EPIC也支持添加新的等位基因。
 
传统上,混合等位基因MS数据是基于泛特异性方法(如NetMHCpan)的亲和力预测进行去卷积的。这种方法的显着缺点是,它取决于对不同HLA等位基因的亲和力预测的准确性,这对于训练数据有限或没有训练数据的人可能尤其不精确。不幸的是,这通常与需要添加到EPIC的先前不受支持的等位基因相吻合,例如A33:03等位基因。此外,体内MHC分子呈递的肽可能具有与体外结合测定法所测肽不同的序列特性,因此可以通过基于亲和力的反卷积来排除一些信息丰富的质谱分析肽。我们选择使用GibbsCluster(一种可以处理可变长度肽段的无监督学习方法),以便为EPIC提供无偏见的训练数据。为了确认GibbsCluster在此目的上的表现,我们以Abelin等中的单等位基因MS数据为参考,对Pearson等人中的混合等位基因MS数据进行了多次分析。对于Pearson等人中的许多等位基因,Abelin等人中具有相应的单等位基因数据,我们使用了Pearson等人和GibbsCluster 中所述的基于亲和力的方法。(使用默认参数)进行反卷积。两种反卷积方法生成的基序都与从单等位基因数据获得的基序非常相似,如通过Bassani-Sternberg等人定义的基元距离所测量的。通过使用两种版本的反卷积MS数据来训练简单的PSSM模型并在相应的单等位基因数据上进行测试,它们还获得了非常相似的0.1%PPV。但是,在所有情况下,GibbsCluster都能在每个簇中保留更多的肽,这有助于训练更准确的表位呈递模型。还基于单等位基因和混合等位基因MS数据的混合训练了基于深度学习的EDGE方法,但是在模型训练之前它没有明确执行反卷积。相反,它将等位基因信息整合到一个集成模型中,并在训练过程中隐式执行了“软”聚类。尽管这种方法无疑更为复杂,但是反卷积作为中间步骤有助于提供有关等位基因特异性结合特性的直觉。
在表位表现预测上,最近开发的EDGE方法已被证明比基于亲和力的模型(主要是MHCflurry v1.2.0)好一个数量级,但应注意Bulik-Sullivan等人的评估标准与我们在此使用的内容不同。当我们使用更流行的0.1%PPV时,即正负比或流行率为1:1,000,而EDGE纸使用的流行率为1:2,500至1:10,000。为了进行更好的比较,我们还使用测试数据以40%的召回率对PPV上的EPIC进行了评估,其流行率为1:2,500至1:10,000。EPIC的优势变得更加明显,它以1:10,000的患病率比MHCflurry提升了10倍以上。结合事实和EPIC和EDGE在相同的免疫原性测试数据上执行相似的操作,我们得出结论,尽管我们不能直接运行EDGE,但EPIC和EDGE的性能应该相当。与EDGE相比,EPIC是一个简单得多的模型,但是它们都在大规模MS和RNA序列数据集上进行了训练。这也意味着,EDGE所获得的性能提升在很大程度上应归功于大规模的训练数据,这可能比其深度学习框架更为重要。尽管如此,使用更先进的机器学习技术更好地利用更大的训练集并为表位的呈现贡献更多的因素显然是EPIC未来的重要研究方向。但是,临床上免疫原性的预测不仅取决于抗原决定簇的表达使用更先进的机器学习技术来更好地利用更大的训练集并为表位的呈现贡献更多的因素显然是EPIC未来的重要研究方向。还有,临床上免疫原性的预测不仅取决于抗原决定簇的表达,我们认为重要的是还要考虑造成免疫原性的其他因素。为此,通过大家的努力,创造更多的免疫原性数据和改进实验技术来分析TCR和肽MHC相互作用可能会导致更大的数据集和更深入的了解生物能,最终使EPIC预测个体化肿瘤新生抗原多肽序列更准确。