14种全基因组DNA甲基化测序(WGBS)标准分析比_比对_软件_数据

作者：易基因

全基因组重亚硫酸盐测序（WGBS）是甲基化研究的重要技术。尽管已经开发了一系列工具来解决由亚硫酸盐处理引起的比对问题，但尚未对最新可用工具的reads比对性能以及多种哺乳动物的生物学解释（biological interpretation）进行评估。在此基础上，本文对人、牛和猪等三种哺乳动物真实和模拟WGBS生成的14.77 billion reads数据进行936次比对，以测试和评估14种常用的标准分析比对软件，分别为Bwa-meth、BSBolt、BSMAP、Walt、Abismal、Batmeth2、Hisat_3n、Hisat_3n_repeat、Bismark-bwt2-e2e、Bismark-his2、BSSeeker2-bwt、BSSeeker2-soap2、BSSeeker2-bwt2-e2e和BSSeeker2-bwt2-local。

具体而言，与其他九种比对软件相比，Bwa-meth、BSBolt、BSMAP、Bismark-bwt2-e2e和Walt五种软件表现出更高的唯一比对reads、比对精确率、召回率和F1-score，不同比对软件对甲基化的影响在CpG位点数量和甲基化水平、calling差异甲基化CpG（DMC）和差异甲基化区域（DMR）上有很大差异。尤其是BSMAP比对软件在检测CpG位点和甲基化水平、DMC/DMR/DMR相关基因和信号通路的calling方面表现出最高的准确性。

图1：哺乳动物14种比对软件的标准分析方案

材料方法

（1）模拟数据的生成

从UCSC下载了人、牛和猪的参考基因组，其基因组大小、组装质量和基因数量各不相同（表1）。基于三种哺乳动物的参考基因组，使用Sherman生成模拟的WGBS数据（Sherman是Babraham开发的具有特定参数的WGBS数据模拟器）。

展开全文

表1：人、牛和猪参考基因组组装

模拟对运行时间、占用内存、唯一比对reads、比对精确率、召回率和F1-score进行标准分析测试，使用Sherman模拟数据集A生成了45个模拟数据样本（5个测序错误率×3个哺乳动物×3个重复）。5种测序错误率分别为0、0.25%、0.5%、0.75%和1.00%；3种哺乳动物为人、牛和猪；每种哺乳动物的每个测序错误率生成3个重复。总共使用了45个模拟数据样本和630次比对来对14个比对软件进行标准测试。每个模拟数据样本均生成2M reads覆盖，因此45个模拟数据样本共生成90M reads。

为进一步研究比对性能以及重复序列和CGI对比对软件比对率的影响，又生成了包含18个数据样本的模拟数据集B（2个测序错误率×3个哺乳动物×3个重复），每个样本的reads数约为93.8M。2个测序错误率分别为0和1.00%，共生成约1.64 billion reads数据。

两组模拟数据集研究均未对包括CpG位点、DMC/DMR/DMR相关基因和信号通路calling的甲基化生物学解释进行标准分析。

（2）真实WGBS数据

从国家生物技术信息中心（NCBI）数据库的序列reads档案中下载了人、牛和猪的真实WGBS数据。真实数据集A包含9个数据样本（3个哺乳动物×3个重复）。每个样本覆盖2M reads，共生成18M reads，用于评估运行时间、内存消耗和唯一比对reads。

真实数据集B包含18个数据样本（3个哺乳动物×2组×3个重复）。两组分为第1组和第2组，每组3个生物学重复。人的数据来自精神分裂症患者和正常人的大脑；牛的数据来自6头公牛背最长肌；猪的数据来自长白猪的骨骼肌。真实数据集B中样本的测序深度大于30X，共生成13.1 billion reads用于分析比对软件对生物学解释下游分析的影响，如CpG位点、DMC/DMR/DMR基因和信号通路。

分析结果

（1）比对软件的运行时间和内存使用成本

为了对这14种比对软件的比对效率进行标准测试分析，使用模拟数据集A和真实数据集A计算运行时间和内存消耗。结果发现Walt软件速度最快，而BSSeeker2-bwt2-local是在测序错误率分别为0%、0.25%、0.50%、0.75%和1.00%下的最慢软件（图2a）。Bwa-meth、Hisat_3n、Hisat_3n_repeat、BSBolt、BSMAP和Bismark-his2的运行时间与人、牛和猪这三种哺乳动物中分别为0、0.25%、0.50%、0.75%和1.00%的测序错误率呈正相关（Pearson相关系数≥0.7，P<0.05）（图2b）。BSSeeker2-bwt2-e2e、Batmeth2、BSSeeker2-bwt2-local和Abismal的平均运行时间比Walt、BSMAP、Bwa-meth、Bismark-his2、BSSeeker2-soap2、BSSeeker2-bwt、Bismark-bwt2-e2e、BSBolt、Hisat_3n和Hisat_3n_repeat的平均运行时间分别长5.38倍（模拟数据）和3.36倍（真实数据）（学生t检验，P＜2.67e-12）（图2c）。

图2：基于模拟数据集A和真实数据集A的14种比对软件的运行时间和内存消耗。

模拟数据集A中五种测序错误率的14种比对软件的运行时间（左）和内存消耗（右）。

模拟数据集A中14种比对软件的测序错误率与性能之间的Pearson相关系数（如运行时间、内存消耗、唯一比对reads，比对的精确率和召回率）。

模拟数据集A（左）和真实数据集A（右）中14种比对软件的平均运行时间。

模拟数据集A（左）和真实数据集A（右）中14种比对软件的平均内存消耗。

将模拟数据和实际数据结果进行平均，除了Batmeth2、BSSeeker2-bwt2-local和Abismal软件外，其他比对软件的运行时间在人、牛和猪物种之间没有显著变化（图2c）。BSSeeker2-soap2软件分别比BSSeeker2-bwt、BSSeeker2-bwt2-e2e、BSSeeker2-bwt2-local软件快2.72、5.78和8.95倍（学生t检验，P<3.7e-09）；Bismark-his2软件比Bismark-bwt2-e2e软件快2.27倍（学生t检验，P<9.5e-07）；Bismark-bwt2-e2e软件比BSSeeker2-bwt2-e2e软件快2.04倍（学生t检验，P<2.3e-09），表明不同的比对软件表现出不同的运行时间。

此外，在分别为0、0.25%、0.50%、0.75%和1.00%的测序错误率中，Walt占用内存最多，而BSSeeker2-bwt2-local占用内存最低，这与Walt和BSSeeker2-bwt2-local的运行时间不一致（图2a）。Bwa-meth和BSBolt所占内存与人、牛和猪分别为0、0.25%、0.50%、0.75%和1.00%的测序错误率高度正相关（Pearson相关系数≥0.7，P<0.05，图2b）。BSSeeker2-soap2、BSMAP、Bwa-meth、Walt、Batmeth2、Hisat_3n、Hisat_3n_repeat和BSBolt软件在人类、牛和猪中所占内存分别是BSSeeker2-bwt、Bismark-bwt2-e2e、BSSeeker2-bwt2-e2e、BSSeeker2-bw2-local、Bismark-his2和Abismal的3.29倍（模拟数据）和3.30倍（真实数据）（学生t检验，P＜2.2e-16，图2d）。且这些比对软件的内存随着人、牛和猪的基因组大小而减少（图2d）。将模拟数据和真实数据的结果进行平均，BSSeeker2-soap2所占内存分别是BSSeeker2-bwt、BSSeeker2-bwt2-e2e和BSSeeker2-bwt2-local的2.19倍、2.02倍和2.02倍；Bismark-his2所占内存是Bismark-bwt2-e2e的1.33倍（学生t检验，P＜7.37e-06）。这些结果表明，soap2和his2比对软件比bwt、bwt2-e2e和bwt2-local占用更多内存。

（2）比对软件的唯一比对reads、比对精确率（mapped precision）、召回率（recall）和F1-score

为了研究比对软件的比对性能，利用不同比对软件对模拟数据集A的唯一比对reads、比对精确率、召回率和F1-score进行分析。计算公式如下：

结果发现BSSeeker2-bwt2-2e分别为0、0.25%、0.50%、0.75%和1.00%的测序错误率在三个基因组中表达的唯一比对reads最少，而Bwa-meth表现的最多（图3a）。测序错误率与Hisat_3n_repeat、Hisat_3n、Walt、BSSeeker2-soap2、BSSeeker2-bwt2-local、Batmeth2和BSSeeker2-bwt2-e2e唯一比对的reads数呈高度负相关（Pearson相关系数≤-0.7，P＜0.05，图2b）。Bwa-meth、BSBolt、BSMAP、Hisat_3n、Hisat_3n_repeat、Abismal、Bismark-bwt2-e2e和Walt的唯一比对reads率比其他比对软件高22.68%（（学生t检验，P＜2.2e-16，图3b）。与人物种相比，除了Batmeth2、Hisat_3n_repeat、Bwa-meth和BSBolt外，其他比对软件在牛和猪物种中显示出更高比例的唯一比对reads（图3b）。值得一提的是，BSSeeker2的四种软件软件显示相似的唯一比对reads，但Bismark-bwt2-e2e表现出的唯一比对reads比Bismark-his2多11.00%（图3b）。而在真实数据中没有观察到这些情况（图3c）。

图3：14种比对软件对模拟数据集A和真实数据集A的唯一比对reads、映射精确率、召回率和F1-score分析

模拟数据集A中五个测序错误率的唯一比对reads。

模拟数据集A中这些比对软件的唯一比对reads平均比例。

真实数据集A中这些比对软件的唯一比对reads平均比例。

模拟数据集A中这些比对软件的平均比对精确率和召回率。

模拟数据集A中这些比对软件的平均 F1-score。

模拟数据集 A 中唯一比对reads和F1-score的平均率。

此外，Walt表现出最高的比对精确率和召回率，而BSSeeker2-bwt2-local表现出最低的比对精确率和召回率（图3d）。除了BSSeeker2-bwt外，其他比对软件的比对精确率和召回率与测序错误率呈高度负相关（Pearson相关系数≤-0.7，P<0.05）（图2b）。此外除了BSSeeker2-bwt2-local和Batmeth2外，大多数比对软件在三个基因组中的平均F1-score均>90%，BSSeeker2-bwt2-local的F1-score至少比BSSeeker2-soap2、BSSeeker2-bwt和BSSeeker2-bwt2-e2e低21.64%，而Batmeth2和BSSeeker2-bwt2-local在模拟数据的F1-score上表现较差（图3e），但在真实数据中唯一比对reads上表现出优异的性能（图3c）。三个基因组中的平均唯一比对reads和F1-score结果，显示Bwa-meth、BSBolt、BSMAP、Bismark-bwt2-e2e和Walt的唯一比对reads率和F1-score均>90%（图3f）。因此后续分析的重点将放在Bwa-meth、BSBolt、BSMAP、Bismark-bwt2-e2e和Walt上，以进一步研究其在WGBS数据生物学解释中的表现。

（3）重复序列和CGI对比对性能的影响

由于Bwa-meth、BSBolt、BSMAP、Bismark-bwt2-e2e和Walt在唯一比对reads和F1-score方面表现突出，使用模拟数据集B进一步研究这五种软件的比对性能。结果发现Bwa-meth表现出最少的比对reads数，而Walt表现出最多低质量比对reads（图4a）。测序错误率从0增加到1.00%，BSMAP、BSBolt、Bwa-meth、Bismark-bwt2-e2e和Walt的比对reads分别增加了0.053%、1.95%、0.144%、1.321%和5.651%（图4a）。在测序错误率为0和1.00%的情况下，Bwa-meth的比对reads仅由不正确的唯一比对reads组成（图4a）。与牛和猪物种相比，人物种在五种比对软件中的比对reads更多低质量（P<0.0013，图4a）。且9.2%-53%的低质量比对reads与这五种比对软件中的reads数相同。这一结果反映了这五种比对软件的不同比对性能。

图4：重复序列和CGI对模拟数据集B中5种比对软件比对性能的影响

Bwa-meth、BSBolt、BSMAP、Bismark-bwt2-e2e和Walt的低质量比对reads的比例和类别。

这五种比对软件在重复序列和非重复序列中的低质量比对reads比例。

这五种比对软件在CGI和非CGI中的低质量比对reads比例。

图5：Bwa-meth、BSBolt、BSMAP、Bismark-bwt2-e2e和Walt对真实数据集B中CpG位点和甲基化水平的影响。

Bwa-meth、BSBolt、BSMAP、Bismark-bwt2-e2e和Walt分别检测到的CpG位点数。

通过五种或四种比对软件一致检测到的共同CpG位点数量。

Bwa-meth、BSBolt、BSMAP、Bismark-bwt2-e2e和Walt检测到的准确CpG位点比例。

通过四个或三个比对软件一致检测到的共同CpG位点数量。

Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的准确CpG位点比例。

一致和不一致的CpG位点的比例。

CGI、非CGI、重复序列和非重复序列中一致和不一致CpG位点的比例。

一致和不一致CpG比例的高、中、低甲基化水平。

Bwa：Bwa-meth；BSM：BSMAP；Bis：Bismark-bwt2-e2e；Wal：Walt；BSB：BSBolt。

为研究基因组特征对低质量比对reads的影响，分析低质量的比对reads在重复序列和CGI的表征，结果发现在重复序列中表现出比在非重复序列中更低质量的比对reads（学生t-检验，P＜2.68e-05，图4b），且在CGI区域中发现比非CGI区域更低质量的比对reads（学生t-检验，P＜9.59e-05，图4c）。与非重复序列相比，在Bwa-meth、BSBolt、BSMAP、Bismark-bwt2-e2e和Walt比对软件中，人物种的重复序列低质量比对reads富集度为1.43、1.33、1.41、1.29和1.38，牛物种为4.06、4.29、4.37、2.82和3.03；猪物种为1.70、1.69、1.59、1.50和1.55（Fisher精确检验，P＜2.2e-16）（图4b）。此外与非CGI相比（图4c），在Bwa-meth、BSBolt、BSMAP、Bismark-bwt2-e2e和Walt比对软件中，CGI中低质量比对reads在人物种中的富集度为1.67、1.76、1.64、1.67和1.76，牛物种为3.18、2.70、2.23、2.56和2.00，猪物种为1.99、2.06、1.66、1.65和1.69（Fisher精确检验，P＜2.2e-16）。这些观察结果表明重复序列和CGI区域导致了低质量的比对reads。

（4）比对软件对CpG位点和甲基化水平的影响

通过Bwa-meth、BSBolt、BSMAP、Bismark-bwt2-e2e和Walt比对软件对真实数据集B 种CpG位点≥10reads覆盖的甲基化谱进行评估，发现BSBolt在人（28551216）、牛（36661360）和猪（31884976）中calling的CpG位点最多；Walt在人（17326301）、牛（20956144）和猪（18884561）中calling的CpG含量最低（图5a）。在人物种中（图5b），这五种比对软件一致检测到8182827个CpG位点，但在去除BSBolt后，Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt一致检测到的CpG位点增加了170.63%（13962703）。该结果表明BSBolt软件是造成人、牛、猪物种中缺乏一致性CpG位点的原因（图5b）。此外BSMAP在检测CpG位点时表现出最高的准确度（人：15411076，99.37%；牛：14252815，98.99%；猪：14272746，99.03%），而BSBolt的准确度最低（人：9728719，62.73%；牛：6143665，42.67%；猪：6316216，43.82%）（图5C）。由于BSBolt与其他四种软件在CpG位点上存在巨大差异，以下讨论将集中在Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt上。

就Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt而言，在去除Walt后，其他三个软件一致地检测到大部分CpG位点，因此可能Walt是导致这四种比对效率不一致的原因（图5d）。BSMAP表现出比其他三种软件更高的精确度（图5e）。通过四种比对软件分别在人、牛和猪中检测到26586835、29736425和28674654个CpG位点，其中约51.65%、42.02%和44.64%被检测为一致CpG位点（图5f）。此外CGI和重复序列在人、牛和猪中可能比非CGI和非重复序列保留更多不一致的CpG位点（学生t-检验，P<6.38e-03，图5g）。在人、牛和猪物种中，一致的CpG在低甲基化（<1/3）和高甲基化（>1/3）时可能过表达，但不一致的CpG可能在中等甲基化时表达下调（1/3~2/3）（学生t检验，P<0.02，图5h）。

（5）比对软件对DMC和DMR的影响

基于真实数据集B中包含≥10 reads覆盖的CpG位点，在Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt中评估了DMC和DMR的甲基化变化和动态。在这四种软件中，Bwa-meth软件calling的DMC最多（人：1366812；牛：2506659；猪：1747539），Walt软件calling的DMC最少（人：884427；牛：1702832；猪：850291）（图6a）。四种软件在人、牛和猪中一致鉴定出316048、631985和27238个DMC；Bwa-meth、BSMAP和Bismark-bwt2-e2e一致鉴定出最多的DMC（人：432724；牛：811088；猪：363085）；Bwa-meth、Bismark-bwt2-e2e和Walt一致鉴定出最少的DMC（人：334856；牛；669034；猪：289236）。在去除Walt后，其他三种比对软件一致鉴定最多DMC，表明Walt对DMC的一致性分析有所欠缺（图6b）。calling DMC时，BSMAP在人（551145，96.70%）、牛（1101408，96.74%）和猪（502505，96.75%）中显示出最高的准确度，而Walt在人（453277，79.53%）、牛（959354，84.27%）和猪（428656,82.54%）中显示出最低的准确度（图6c）。在人、牛和猪的重复序列中，一致性DMC的富集度分别为0.92、0.87和0.83（图6d，Fisher精确检验，P＜2.2e-16），表明一致性DMC可能在重复序列中不足，但对CGI没有明显的偏好（图6d）。

图6：Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt对真实数据集B中的甲基化动态影响

（a） Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的DMC数量。

（b）多种比对软件共同检测到的一致性DMC数量。

（c） Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的准确DMC比例。

（d） CGI、非CGI、重复序列和非重复序列中一致和不一致的DMC比例。

（e） Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的DMR长度。

（f）多种比对软件一致检测到的DMR长度。

（g） Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的准确DMR比例。

（h） CGI、非CGI、重复序列和非重复序列中一致和不一致的DMR比例。

Bwa：Bwa-meth；BSM：BSMAP；Bis：Bismark-bwt2-e2e；Wal：Walt。

在Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt中，calling的最长DMR来自Bwa-meth的比对结果（人：109239519 bp，牛：123175355 bp，猪：120202580 bp），calling的最短DMR来自Walt的比对结果（人：77387750 bp，牛：94239118 bp，猪：79180616 bp）（图6e）。Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt分别在人、牛和猪中共同鉴定出30530480bp、33100297bp和25135110bp的DMR（图6f）。在通过三种软件共同鉴定的DMR中，去除Walt后，Bwa-meth、BSMAP和Bismark-bwt2-e2e共同鉴定的DMR最长（人：40957306 bp；牛：42379448 bp；猪：33330430 bp），表明Walt是缺乏一致性的原因（图6f）。BSMAP在人（50708843 bp，95.39%）、牛（56868993 bp，95.34%）和猪（953420 bp，94.86%）的DMR calling中表现出最高的准确度，而Walt在人（42734834 bp，80.39%）、牛（50368187 bp，84.44%）和猪（39014214 bp，82.64%）中表现出最低的准确度（图6g）。

这些一致性DMR在人、牛和猪的重复序列中的富集分别为0.74、0.74和0.86（图6h，Fisher精确检验，P＜2.2e-16），表明一致性DMR也可能在重复序列中不足，且对CGI没有明显的偏好（图6h）。为更好描述四种比对软件对全基因组DNA甲基化谱的影响，观察了SOX9基因在人类、MPZ基因在牛和IGF2BP3基因在猪中的甲基化谱（图7a-c），结果表明比对软件在CpG位点数量和甲基化水平、DMC数量和DMR长度方面生成了不同的甲基化谱。这些结果表明比对软件的选择对甲基化水平具有显著影响。

图7：Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt揭示基因的DNA甲基化谱

（a） SOX9基因是人对照组和精神分裂症之间差异表达最高的基因。

（b） MPZ基因是与牛胚胎过程Wnt信号通路相关的中枢基因。

（c） IGF2BP3基因是调节猪骨骼肌发育的关键基因。

（6）比对软件对生物解释（biological interpretation）的影响

上述结果表明这四种比对软件的选择对甲基化谱具有显著影响。为了进一步探索比对软件对WGBS数据生物学解释的影响，基于真实数据集B提取DMR相关基因，并通过KEGG富集分析解释和鉴定Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt比对分析的生物学功能。结果发现Bwa-meth在人（32055）、牛（17762）和猪（22510）中检测到最多的DMR相关基因，而Walt在人（28446）、牛（16841）和猪（20444）中检测到最少的DMR相关基因（图8a）。Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt在人（25161）、牛（15409）和猪（17967）中共同鉴定出25161个一致性DMR相关基因（图8b）。在通过三种软件共同鉴定的一致性DMR相关基因中，去除Walt，Bwa-meth、BSMAP和Bismark-bwt2-e2e在人（26638）、牛（15893）和猪（18935）鉴定出最多的DMR相关基因（图8b），表明Walt在calling DMR相关基因方面缺乏一致性。对于calling DMR相关基因的准确性，BSMAP在人（27948,98.68%）和牛（16584,99.00%）中最高，Bwa-meth在猪中最高（20011,98.28%），但Walt在人（26846,94.78%）、牛（16267,97.11%）和猪（19392,95.24%）中均最低（图8c）。

图8：Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt对真实数据集B中生物学解释的影响.

（a） Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的DMR相关基因数量。

（b）通过多种比对软件共同检测到的一致性基因数量。

（c） Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的准确DMR相关基因比例。

（d） Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的信号通路数量。

（e）通过多种比对软件共同检测到的一致性通路数。

（f） Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的准确通路比例。

Bwa：Bwa-meth；BSM：BSMAP；Bis：Bismark-bwt2-e2e；Wal：Walt。

在DMR相关基因的KEGG分析中，分别在人、牛和猪中鉴定出140、223和223条通路（图8d），通过四种比对软件一致检测出约67、184和157条通路（图8e）。在去除Walt后，其他三种比对软件在人（75）和猪（167）中共同检测到最多的通路；去除Bwa-meth后，其他三种比对软件在牛（189）中共同检测到最多的通路（图8e）。此外，BSMAP在信号通路的calling中表现出最高的准确性（人：86，95.56%；牛：197，99.49%；猪：181，97.84%），Walt在信号通路的calling中表现出最低的准确性（人：82，91.11%；牛：194，97.98%；猪：175，94.59%）（图8f）。

最后分析了四种比对软件中每种软件富集度最高通路的TOP 30。在人物种中，所有四种软件一致地解释了15个（50.00%）信号通路，如粘着斑（Focal adhesion）、轴突导向（Axon guidance）、产热（and Thermogenesis），但其中两种软件可以一致检测到的信号通路数量范围为18~22个（60%-73.33%）。在牛中，所有四种软件都解释了16个（53.33%）信号通路（如MAPK信号通路、肝细胞癌和轴突导向），但四种软件中的两种一致检测到的信号通路数量范围为21~24个（70%-80.00%）。在猪中，所有四种软件都解释了15个（50.00%）信号通路，如内吞作用（Endocytosis）、粘着斑、轴突导向，但四种软件中的两种一致检测到的信号通路数量范围为19~23个（63.33%-76.67%）。

结论

基于14.77 billion reads的真实和模拟WGBS数据，共进行936次比对，以标准化分析评估在人、牛和猪的甲基化研究中的14种常用的比对软件，包括运行时间，内存消耗，唯一比对reads、低质量比对reads、比对精确率、召回率和F1-score，以及在检测CpG位点和甲基化水平、calling DMC/DMR/DMR相关基因和信号通路的生物学解释准确性。

在模拟WGBS数据中，Bwa-meth、BSBolt、BSMAP、Bismark-bwt2-e2e和Walt比其他九种比对软件表现出更高的唯一比对reads，比对精确率、召回率和F1-score。在真实WGBS数据中，与Bwa-meth、BSBolt、Bismark-bwt2-e2e和Walt相比，BSMAP在检测CpG位点和甲基化水平、calling DMC/DMR/DMR相关基因和信号通路方面显示出最高的准确性。这些结果可以为研究人员提供比对软件选择的有用信息，并有助于提高哺乳动物DNA甲基化检测的准确性。

参考文献：Gong W, et al. Benchmarking DNA methylation analysis of 14 alignment algorithms for whole genome bisulfite sequencing in mammals. Comput Struct Biotechnol J. 2022;20:4704-4716.

（2）比对软件的唯一比对reads、比对精确率（mapped precision）、召回率（recall）和F1-score

为了研究比对软件的比对性能，利用不同比对软件对模拟数据集A的唯一比对reads、比对精确率、召回率和F1-score进行分析。计算公式如下：

图3：14种比对软件对模拟数据集A和真实数据集A的唯一比对reads、映射精确率、召回率和F1-score分析

模拟数据集A中五个测序错误率的唯一比对reads。

模拟数据集A中这些比对软件的唯一比对reads平均比例。

真实数据集A中这些比对软件的唯一比对reads平均比例。

模拟数据集A中这些比对软件的平均比对精确率和召回率。

模拟数据集A中这些比对软件的平均 F1-score。

模拟数据集 A 中唯一比对reads和F1-score的平均率。

（3）重复序列和CGI对比对性能的影响

图4：重复序列和CGI对模拟数据集B中5种比对软件比对性能的影响

Bwa-meth、BSBolt、BSMAP、Bismark-bwt2-e2e和Walt的低质量比对reads的比例和类别。

这五种比对软件在重复序列和非重复序列中的低质量比对reads比例。

这五种比对软件在CGI和非CGI中的低质量比对reads比例。

图5：Bwa-meth、BSBolt、BSMAP、Bismark-bwt2-e2e和Walt对真实数据集B中CpG位点和甲基化水平的影响。

Bwa-meth、BSBolt、BSMAP、Bismark-bwt2-e2e和Walt分别检测到的CpG位点数。

通过五种或四种比对软件一致检测到的共同CpG位点数量。

Bwa-meth、BSBolt、BSMAP、Bismark-bwt2-e2e和Walt检测到的准确CpG位点比例。

通过四个或三个比对软件一致检测到的共同CpG位点数量。

Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的准确CpG位点比例。

一致和不一致的CpG位点的比例。

CGI、非CGI、重复序列和非重复序列中一致和不一致CpG位点的比例。

一致和不一致CpG比例的高、中、低甲基化水平。

Bwa：Bwa-meth；BSM：BSMAP；Bis：Bismark-bwt2-e2e；Wal：Walt；BSB：BSBolt。

（4）比对软件对CpG位点和甲基化水平的影响

（5）比对软件对DMC和DMR的影响

图6：Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt对真实数据集B中的甲基化动态影响

（a） Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的DMC数量。

（b）多种比对软件共同检测到的一致性DMC数量。

（c） Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的准确DMC比例。

（d） CGI、非CGI、重复序列和非重复序列中一致和不一致的DMC比例。

（e） Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的DMR长度。

（f）多种比对软件一致检测到的DMR长度。

（g） Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的准确DMR比例。

（h） CGI、非CGI、重复序列和非重复序列中一致和不一致的DMR比例。

Bwa：Bwa-meth；BSM：BSMAP；Bis：Bismark-bwt2-e2e；Wal：Walt。

图7：Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt揭示基因的DNA甲基化谱

（a） SOX9基因是人对照组和精神分裂症之间差异表达最高的基因。

（b） MPZ基因是与牛胚胎过程Wnt信号通路相关的中枢基因。

（c） IGF2BP3基因是调节猪骨骼肌发育的关键基因。

（6）比对软件对生物解释（biological interpretation）的影响

图8：Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt对真实数据集B中生物学解释的影响.

（a） Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的DMR相关基因数量。

（b）通过多种比对软件共同检测到的一致性基因数量。

（c） Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的准确DMR相关基因比例。

（d） Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的信号通路数量。

（e）通过多种比对软件共同检测到的一致性通路数。

（f） Bwa-meth、BSMAP、Bismark-bwt2-e2e和Walt检测到的准确通路比例。

Bwa：Bwa-meth；BSM：BSMAP；Bis：Bismark-bwt2-e2e；Wal：Walt。

结论

参考文献：Gong W, et al. Benchmarking DNA methylation analysis of 14 alignment algorithms for whole genome bisulfite sequencing in mammals. Comput Struct Biotechnol J. 2022;20:4704-4716.

本文转载自其他网站，不代表健康界观点和立场。如有内容和图片的著作权异议，请及时联系我们（邮箱：guikequan@hmkx.cn）

特别声明

本文仅代表作者观点，不代表本站立场，本站仅提供信息存储服务。

上一篇 : Java发展史三大版本含义 Java核心优势【尚学堂_百战程序员】_语言_程序_核心

下一篇 : 威图机柜是什么意思_机柜_喷涂_钢板

14种全基因组DNA甲基化测序(WGBS)标准分析比_比对_软件_数据

特别声明

历史之最

相关专题

14种全基因组DNA甲基化测序(WGBS)标准分析比_比对_软件_数据

特别声明

相关文章

历史之最

相关专题