您的当前位置：首页宏基因组或宏转录组测序数据自动化分析方法及系统[发明专利]

宏基因组或宏转录组测序数据自动化分析方法及系统[发明专利]

来源：化拓教育网

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 110751984 A(43)申请公布日 2020.02.04

(21)申请号 201911053404.6(22)申请日 2019.10.31

(71)申请人广州微远基因科技有限公司

地址 510130 广东省广州市高新技术产业

开发区科丰路31号自编三栋华南新材料创新园G10栋303号(72)发明人许腾　刘足　苟雪静　李永军　

王小锐　苏杭　(74)专利代理机构广州新诺专利商标事务所有

限公司 44100

代理人李海恬(51)Int.Cl.

G16B 30/00(2019.01)G16B 50/00(2019.01)

权利要求书3页说明书17页附图5页

(54)发明名称

宏基因组或宏转录组测序数据自动化分析方法及系统(57)摘要

本发明涉及一种宏基因组或宏转录组测序数据自动化分析方法及系统，数据基因检测技术领域。该方法以CRP(临床可报病原体)数据库、背景库、与阴性对照样本的差异进行比对，去除冗余信息，再通过属内菌种排名选取报告菌种，最后以CCRP(临床重点关注病原体)数据库再次筛选过滤菌种防漏，得出报告菌种，自动生成报告。本发明将人工解读的过程自动化，加快了解读的速度和准确度，同时还将历史信息的回溯纳入到解读的过程中，提高了解读的准确性和可靠性。

CN 110751984 ACN 110751984 A

权　利　要　求　书

1/3页

1.一种宏基因组或宏转录组测序数据自动化分析方法，其特征在于，包括以下步骤：获取测序数据：获取待分析样本的宏基因组或宏转录组测序下机数据，以基因序列信息匹配微生物类型，得到初始菌种列表；

CRP数据库过滤：将上述初始菌种列表中的各菌种与预设临床可报病原体数据库中的菌种进行比对，保留记载于所述临床可报病原体数据库中的菌种和相对丰度大于阈值的菌种，得CRP数据库过滤后菌种列表；

背景库过滤：将上述CRP数据库过滤后菌种列表中的各菌种与预设背景库中的菌种进行比对，保留未记载于所述背景库中的菌种和相对丰度大于阈值的菌种，得背景库过滤后菌种列表；

差异性比较：统计本批次内阴性对照样本中检测到的对应菌种，获得阴性菌种目录；分析上述背景库过滤后菌种列表中的各菌种，保留检测序列数大于阈值的菌种，然后与所述阴性菌种目录进行比对，保留未记载于所述阴性菌种目录中的菌种，以及待分析样本检测序列数与阴性对照样本检测序列数比值大于阈值的菌种，得差异性比较后菌种列表；

属内菌种排名：按照细菌，病毒，真菌，寄生虫的类别分别对各菌种进行排名，其中，属按照属的总相对丰度排名，种按照种的序列数排名；按照预设规则，截取排名靠前的菌种，得属内菌种排名后列表；

CCRP数据库增补：将上述步骤中过滤排除的菌种，与预设临床重点关注病原体数据库中的菌种进行比对分析，保留符合预定条件的菌种；

结果输出：将上述各步骤分析处理后保留的菌种结果输出。

2.根据权利要求1所述的宏基因组或宏转录组测序数据自动化分析方法，其特征在于，所述CRP数据库过滤步骤中，将初始菌种列表中的各菌种与预设临床可报病原体数据库中的菌种进行比对，按照下述方法处理：

S1：如一菌种存在于所述临床可报病原体数据库菌种名单中，保留该菌种；S2：如一菌种不存在于所述临床可报病原体数据库菌种名单中，则考察该菌种的相对丰度，如该菌种的相对丰度大于阈值，则保留该菌种，如该菌种的相对丰度小于阈值，则将该菌种过滤；

所述背景库过滤步骤中，将CRP数据库过滤后菌种列表中的各菌种与预设背景库中的菌种进行比对，按照下述方法处理：

S1：如一菌种不存在于所述背景库菌种名单中，保留该菌种；S2：如一菌种存在于所述背景库菌种名单中，则考察该菌种的相对丰度，如该菌种的相对丰度大于阈值，则保留该菌种，如该菌种的相对丰度小于阈值，则将该菌种过滤。

3.根据权利要求1所述的宏基因组或宏转录组测序数据自动化分析方法，其特征在于，根据待分析样本的样本类型、检测类型和菌种类型，选用相应的背景库；所述样本类型包括：肺泡灌洗液，血液，痰液，脑脊液；所述检测类型包括：宏基因组检测，宏转录组检测；所述菌种类型包括：细菌，病毒，真菌，寄生虫。

4.根据权利要求3所述的宏基因组或宏转录组测序数据自动化分析方法，其特征在于，所述临床可报病原体数据库通过以下方法建立：根据文献中疑似病原体研究进展或案例报道，以确认具有致病性的致病菌建立临床可报病原体数据库；

所述背景库通过以下方法建立：选取相同样本类型、检测类型和菌种类型的历史检测

CN 110751984 A

权　利　要　求　书

2/3页

数据进行分析，挑选在所有历史样本中出现频率大于50％的菌种，组成该样本类型、检测类型和菌种类型的背景库；

所述临床重点关注病原体数据库通过以下方法建立：按照文献和耐药监测公布信息中涉及到的致病菌建立。

5.根据权利要求4所述的宏基因组或宏转录组测序数据自动化分析方法，其特征在于，所述差异性比较步骤中，按照下述方法分析背景库过滤后菌种列表中的各菌种：

对于细菌和真菌：S1：如待分析样本中检测到的序列数小于阈值，则将该菌种过滤；S2：如待分析样本中检测到的序列数大于等于阈值，则进入下一步分析，将各菌种与阴性菌种目录中的菌种进行比对：

S21：如该菌种未记载于所述阴性菌种目录中，保留该菌种；S22：如该菌种记载于所述阴性菌种目录中，则分析该菌种在待分析样本中检测到的序列数和在阴性对照样本中检测到的序列数：

S221：如一菌种在待分析样本中检测到的序列数≥50，且在待分析样本中检测到的序列数与在阴性对照样本中检测到的序列数的比值≥3，保留该菌种；

S222：如一菌种在待分析样本中检测到的序列数≥50，且在待分析样本中检测到的序列数与在阴性对照样本中检测到的序列数的比值＜3，则将该菌种过滤；

S223：如一菌种在待分析样本中检测到的序列数≥3且小于50，且在待分析样本中检测到的序列数与在阴性对照样本中检测到的序列数的比值≥5，保留该菌种；

S224：如一菌种在待分析样本中检测到的序列数≥3且小于50，且在待分析样本中检测到的序列数与在阴性对照样本中检测到的序列数的比值＜5，则将该菌种过滤；

对于病毒和寄生虫：S1：如待分析样本中检测到的序列数小于阈值，则将该菌种过滤；S2：如待分析样本中检测到的序列数大于等于阈值，则进入下一步分析。6.根据权利要求1所述的宏基因组或宏转录组测序数据自动化分析方法，其特征在于，所述属内菌种排名步骤中，所述预设规则如下：

细菌和真菌的排名规则：S1：对于菌种排名在前5个属的前2种菌种，如排名第1菌种的序列数和排名第2菌种的序列数的比值≥10，则排名第1的菌种保留，排名第2的菌种过滤；如排名第1菌种的序列数和排名第2菌种的序列数的比值<10，则排名第1的菌种和排名第2的菌种都保留；

S2：对于菌种排名不在前5个属的菌种：过滤；病毒的排名规则：S1：对于菌种排名在前5个种的前2型：如排名第1型序列数和排名第2型序列数的比值≥10，则排名第1型保留，排名第2型过滤；如排名第1型序列数和排名第2型序列数的比值<10，则排名第1型和排名第2型都保留；

S2：对于菌种排名不在前5个种的亚型：过滤；寄生虫的排名规则：如菌种排名在前10种的寄生虫，保留；如菌种排名不在前10种的寄生虫，过滤。

7.根据权利要求1所述的宏基因组或宏转录组测序数据自动化分析方法，其特征在于，

CN 110751984 A

权　利　要　求　书

3/3页

所述CCRP数据库增补步骤中，按照下述方法进行比对分析：

对于经差异性比较步骤过滤的菌种：S1：如该菌种存在于所述临床重点关注病原体数据库中，且该菌种的相对丰度大于阈值，则保留该菌种；

S2：如该菌种不存在于所述临床重点关注病原体数据库中，则将该菌种过滤；对于经属内菌种排名步骤过滤的菌种：S1：如该菌种存在于所述临床重点关注病原体数据库中，则保留该菌种；S2：如该菌种不存在于所述临床重点关注病原体数据库中，则将该菌种过滤。8.一种宏基因组或宏转录组测序数据自动化分析系统，其特征在于，包括：获取测序数据模块：用于获取待分析样本的宏基因组或宏转录组测序下机数据，以基因序列信息匹配微生物类型，得到初始菌种列表；

CRP数据库过滤模块：用于将上述初始菌种列表中的各菌种与预设临床可报病原体数据库中的菌种进行比对，保留记载于所述临床可报病原体数据库中的菌种和相对丰度大于阈值的菌种，得CRP数据库过滤后菌种列表；

背景库过滤模块：用于将上述CRP数据库过滤后菌种列表中的各菌种与预设背景库中的菌种进行比对，保留未记载于所述背景库中的菌种和相对丰度大于阈值的菌种，得背景库过滤后菌种列表；

差异性比较模块：用于统计本批次内阴性对照样本中检测到的对应菌种，获得阴性菌种目录；分析上述背景库过滤后菌种列表中的各菌种，保留检测序列数大于阈值的菌种，然后与所述阴性菌种目录进行比对，保留未记载于所述阴性菌种目录中的菌种，以及待分析样本检测序列数与阴性对照样本检测序列数比值大于阈值的菌种，得差异性比较后菌种列表；

属内菌种排名模块：用于按照细菌，病毒，真菌，寄生虫的类别分别对各菌种进行排名，其中，属按照属的总相对丰度排名，种按照种的序列数排名；按照预设规则，截取排名靠前的菌种，得属内菌种排名后列表；

CCRP数据库增补模块：用于将上述步骤中过滤排除的菌种，与预设临床重点关注病原体数据库中的菌种进行比对分析，保留符合预定条件的菌种；

结果输出模块：用于将上述各步骤分析处理后保留的菌种结果输出。

9.权利要求1-7任一项所述的宏基因组或宏转录组测序数据自动化分析方法在自动生成检测报告中的应用。

10.权利要求1-7任一项所述的宏基因组或宏转录组测序数据自动化分析方法在回溯检测样本数据纠错中的应用。

CN 110751984 A

说　明　书

1/17页

宏基因组或宏转录组测序数据自动化分析方法及系统

技术领域

[0001]本发明涉及基因检测技术领域，特别是涉及一种宏基因组或宏转录组测序数据自动化分析方法及系统。

背景技术

[0002]目前，宏基因组或宏转录组技术已经开始广泛的运用于未知病原体快速检测辅助临床诊治。但是由于环境、试剂、人体微生态等因素的影响，一份样本的检测往往伴随着成百上千种微生物的检出，因此需要对检测结果进行精细的解读，从检测到的大量微生物中筛选出真正的致病菌。[0003]然而，目前致病菌的筛选严重的依赖于人工解读，导致存在如下的局限性：一份样本的解读速度偏慢影响病原检测的极致交付；解读结果的准确性很大程度取决于解读人员的专业性和经验；在有限的解读时间内很难快速回溯历史样本。发明内容

[0004]基于此，有必要针对上述问题，提供一种宏基因组或宏转录组测序数据自动化分析方法及系统，可将人工解读的过程自动化，加快解读的速度和准确度，同时将历史信息的回溯纳入到解读的过程中。

[0005]一种宏基因组或宏转录组测序数据自动化分析方法，包括以下步骤：[0006]获取测序数据：获取待分析样本的宏基因组或宏转录组测序下机数据，以基因序列信息匹配微生物类型，得到初始菌种列表；[0007]CRP数据库过滤：将上述初始菌种列表中的各菌种与预设临床可报病原体数据库中的菌种进行比对，保留记载于所述临床可报病原体数据库中的菌种和相对丰度大于阈值的菌种，得CRP数据库过滤后菌种列表；[0008]背景库过滤：将上述CRP数据库过滤后菌种列表中的各菌种与预设背景库中的菌种进行比对，保留未记载于所述背景库中的菌种和相对丰度大于阈值的菌种，得背景库过滤后菌种列表；

[0009]差异性比较：统计本批次内阴性对照样本中检测到的对应菌种，获得阴性菌种目录；分析上述背景库过滤后菌种列表中的各菌种，保留检测序列数大于阈值的菌种，然后与所述阴性菌种目录进行比对，保留未记载于所述阴性菌种目录中的菌种，以及待分析样本检测序列数与阴性对照样本检测序列数比值大于阈值的菌种，得差异性比较后菌种列表；[0010]属内菌种排名：按照细菌，病毒，真菌，寄生虫的类别分别对各菌种进行排名，其中，属按照属的总相对丰度排名，种按照种的序列数排名；按照预设规则，截取排名靠前的菌种，得属内菌种排名后列表；[0011]CCRP数据库增补：将上述步骤中过滤排除的菌种，与预设临床重点关注病原体数据库中的菌种进行比对分析，保留符合预定条件的菌种；[0012]结果输出：将上述各步骤分析处理后保留的菌种结果输出。

CN 110751984 A[0013]

说　明　书

2/17页

上述自动化分析方法中，以CRP(临床可报病原体)数据库、背景库、与阴性对照样

本的差异进行比对，去除冗余信息，再通过属内菌种排名选取报告菌种，最后以CCRP(临床重点关注病原体)数据库再次筛选过滤菌种防漏，得出报告菌种，自动生成报告。本发明将人工解读的过程自动化，加快了解读的速度和准确度，同时还将历史信息的回溯纳入到解读的过程中，提高了解读的准确性和可靠性。[0014]可以理解的，上述“菌种”指包括细菌、真菌、病毒、寄生虫等微生物中按照系统生物学的方法分类得到的物种名称。[0015]在其中一个实施例中，所述CRP数据库过滤步骤中，将初始菌种列表中的各菌种与预设临床可报病原体数据库中的菌种进行比对，按照下述方法处理：[0016]S1：如一菌种存在于所述临床可报病原体数据库菌种名单中，保留该菌种；[0017]S2：如一菌种不存在于所述临床可报病原体数据库菌种名单中，则考察该菌种的相对丰度，如该菌种的相对丰度大于阈值，则保留该菌种，如该菌种的相对丰度小于阈值，则将该菌种过滤；

[0018]所述背景库过滤步骤中，将CRP数据库过滤后菌种列表中的各菌种与预设背景库中的菌种进行比对，按照下述方法处理：[0019]S1：如一菌种不存在于所述背景库菌种名单中，保留该菌种；[0020]S2：如一菌种存在于所述背景库菌种名单中，则考察该菌种的相对丰度，如该菌种的相对丰度大于阈值，则保留该菌种，如该菌种的相对丰度小于阈值，则将该菌种过滤。[0021]在其中一个实施例中，根据待分析样本的样本类型、检测类型和菌种类型，选用相应的背景库；所述样本类型包括：肺泡灌洗液，血液，痰液，脑脊液；所述检测类型包括：宏基因组检测，宏转录组检测；所述菌种类型包括：细菌，病毒，真菌，寄生虫。[0022]在其中一个实施例中，所述临床可报病原体数据库通过以下方法建立：根据文献中疑似病原体研究进展或案例报道，以确认具有致病性的致病菌建立临床可报病原体数据库；例如，可在NCBI数据库中调研NCBI pubmed中已发表的文献，查询某疑似病原体研究进展或案例报道，确认致病性后纳入CRP(临床可报病原体数据库)；[0023]所述背景库通过以下方法建立：选取相同样本类型、检测类型和菌种类型的历史检测数据进行分析，挑选在所有历史样本中出现频率大于50％的菌种，组成该样本类型、检测类型和菌种类型的背景库；

[0024]所述临床重点关注病原体数据库通过以下方法建立：按照文献和耐药监测公布信息中涉及到的致病菌建立。例如：CHINET中国细菌耐药监测网(https://wenku.baidu.com/view/c24ea223bf1e 650e52ea 551810a6f524ccbfcbe1.html)；重要文献，如《临床微生物学手册》、行业中重要综述文章等。可以理解的，上述数据库中菌种目录可根据临床需要、菌种的致病性研究进展等进行调整。[0025]在其中一个实施例中，所述差异性比较步骤中，按照下述方法分析背景库过滤后菌种列表中的各菌种：[0026]对于细菌和真菌：[0027]S1：如待分析样本中检测到的序列数小于阈值，则将该菌种过滤；[0028]S2：如待分析样本中检测到的序列数大于等于阈值，则进入下一步分析，将各菌种与阴性菌种目录中的菌种进行比对：

CN 110751984 A[0029]

说　明　书

3/17页

S21：如该菌种未记载于所述阴性菌种目录中，保留该菌种；

[0030]S22：如该菌种记载于所述阴性菌种目录中，则分析该菌种在待分析样本中检测到的序列数和在阴性对照样本中检测到的序列数：[0031]S221：如一菌种在待分析样本中检测到的序列数≥50，且在待分析样本中检测到的序列数与在阴性对照样本中检测到的序列数的比值≥3，保留该菌种；[0032]S222：如一菌种在待分析样本中检测到的序列数≥50，且在待分析样本中检测到的序列数与在阴性对照样本中检测到的序列数的比值＜3，则将该菌种过滤；[0033]S223：如一菌种在待分析样本中检测到的序列数≥3且小于50，且在待分析样本中检测到的序列数与在阴性对照样本中检测到的序列数的比值≥5，保留该菌种；[0034]S224：如一菌种在待分析样本中检测到的序列数≥3且小于50，且在待分析样本中检测到的序列数与在阴性对照样本中检测到的序列数的比值＜5，则将该菌种过滤；[0035]对于病毒和寄生虫：[0036]S1：如待分析样本中检测到的序列数小于阈值，则将该菌种过滤；[0037]S2：如待分析样本中检测到的序列数大于等于阈值，则进入下一步分析。[0038]在其中一个实施例中，所述属内菌种排名步骤中，所述预设规则如下：[0039]细菌和真菌的排名规则：[0040]S1：对于菌种排名在前5个属的前2种菌种，如排名第1菌种的序列数和排名第2菌种的序列数的比值≥10，则排名第1的菌种保留，排名第2的菌种过滤；如排名第1菌种的序列数和排名第2菌种的序列数的比值<10，则排名第1的菌种和排名第2的菌种都保留；[0041]S2：对于菌种排名不在前5个属菌种：过滤；[0042]病毒的排名规则：[0043]S1：对于菌种排名在前5个种的前2型：如排名第1型序列数和排名第2型序列数的比值≥10，则排名第1型保留，排名第2型过滤；如排名第1型序列数和排名第2型序列数的比值<10，则排名第1型和排名第2型都保留；[0044]S2：对于菌种排名不在前5个种的亚型：过滤；[0045]寄生虫的排名规则：如菌种排名在前10种的寄生虫，保留；如菌种排名不在前10种的寄生虫，过滤。

[0046]在其中一个实施例中，所述CCRP数据库增补步骤中，按照下述方法进行比对分析：[0047]对于经差异性比较步骤过滤的菌种：[0048]S1：如该菌种存在于所述临床重点关注病原体数据库中，且该菌种的相对丰度大于阈值，则保留该菌种；[0049]S2：如该菌种不存在于所述临床重点关注病原体数据库中，则将该菌种过滤；[0050]对于经属内菌种排名步骤过滤的菌种：[0051]S1：如该菌种存在于所述临床重点关注病原体数据库中，则保留该菌种；[0052]S2：如该菌种不存在于所述临床重点关注病原体数据库中，则将该菌种过滤。[0053]本发明还公开了一种宏基因组或宏转录组测序数据自动化分析系统，包括：[0054]获取测序数据模块：用于获取待分析样本的宏基因组或宏转录组测序下机数据，以基因序列信息匹配微生物类型，得到初始菌种列表；[0055]CRP数据库过滤模块：用于将上述初始菌种列表中的各菌种与预设临床可报病原

CN 110751984 A

说　明　书

4/17页

体数据库中的菌种进行比对，保留记载于所述临床可报病原体数据库中的菌种和相对丰度大于阈值的菌种，得CRP数据库过滤后菌种列表；[0056]背景库过滤模块：用于将上述CRP数据库过滤后菌种列表中的各菌种与预设背景库中的菌种进行比对，保留未记载于所述背景库中的菌种和相对丰度大于阈值的菌种，得背景库过滤后菌种列表；[0057]差异性比较模块：用于统计本批次内阴性对照样本中检测到的对应菌种，获得阴性菌种目录；分析上述背景库过滤后菌种列表中的各菌种，保留检测序列数大于阈值的菌种，然后与所述阴性菌种目录进行比对，保留未记载于所述阴性菌种目录中的菌种，以及待分析样本检测序列数与阴性对照样本检测序列数比值大于阈值的菌种，得差异性比较后菌种列表；[0058]属内菌种排名模块：用于按照细菌，病毒，真菌，寄生虫的类别分别对各菌种进行排名，其中，属按照属的总相对丰度排名，种按照种的序列数排名；按照预设规则，截取排名靠前的菌种，得属内菌种排名后列表；[0059]CCRP数据库增补模块：用于将上述步骤中过滤排除的菌种，与预设临床重点关注病原体数据库中的菌种进行比对分析，保留符合预定条件的菌种；[0060]结果输出模块：用于将上述各步骤分析处理后保留的菌种结果输出。

[0061]本发明还公开了上述的宏基因组或宏转录组测序数据自动化分析方法在自动生成检测报告中的应用。

[0062]本发明还公开了上述的宏基因组或宏转录组测序数据自动化分析方法在回溯检测样本数据纠错中的应用。[0063]与现有技术相比，本发明具有以下有益效果：

[00]本发明的一种宏基因组或宏转录组测序数据自动化分析方法，以CRP(临床可报病原体)数据库、背景库、与阴性对照样本的差异进行比对，去除冗余信息，再通过属内菌种排名选取报告菌种，最后以CCRP(临床重点关注病原体)数据库再次筛选过滤菌种防漏，得出报告菌种，自动生成报告。本发明将人工解读的过程自动化，加快了解读的速度和准确度，同时还将历史信息的回溯纳入到解读的过程中，使得在解读时，回溯历史样本的信息成为可能，提高了解读的准确性和可靠性。[0065]例如，在采用本发明的自动化分析方法解读之前，人工解读一份报告平均耗时20-40分钟(视解读人员的专业性和经验而定)，使用自动化解读后，解读一份报告平均耗时4-6分钟，自动解读的实现，极大的加快了测序数据的解读数据。[0066]并且，在采用本发明的自动化分析方法解读之前，人工解读需要在成百上千的检测结果中人工筛选致病菌，较大概率会存在看漏、误删、复制粘贴有误等错误；同时生成报告也需要人工生成，因此有存在相同错误的可能。自动化解读的实现，能更大程度的避免人为操作引入的解读错误，提高解读正确率。附图说明

[0067]图1为实施例2中对于细菌的自动化分析方法逻辑流程示意图；[0068]图2为实施例2中对于病毒的自动化分析方法逻辑流程示意图；[0069]图3为实施例3中对于真菌的自动化分析方法逻辑流程示意图；

CN 110751984 A[0070][0071]

说　明　书

5/17页

图4为实施例2中对于寄生虫的自动化分析方法逻辑流程示意图；图5为实施例4中样本回溯示意图。

具体实施方式

[0072]为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

[0073]除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于本发明。

[0074]本发明所涉及的程序需要在linux的环境下运行，下面就操作方法和结果举例说明。

[0075]以下所称“序列数”，指唯一比对、校正至20M的序列数。[0076]实施例1

[0077]一种宏基因组或宏转录组测序数据自动化分析方法，在linux的环境下运行，在计算机层面，按照以下步骤运行：[0078](1)准备所需要的程序：auto_report.pl(用于自动解读)，auto_report.R(用于生成自动解读报告)。[0079](2)准备所需要的数据库：CRP数据库，CCRP数据库，各样本类型、检测流程、菌种类型对应的背景库等。[0080]具体的，CRP数据库(临床可报病原体数据库)通过以下方法建立：根据文献中疑似病原体研究进展或案例报道，以确认具有致病性的致病菌建立临床可报病原体数据库；例如，可在NCBI数据库中调研NCBI pubmed中已发表的文献，查询某疑似病原体研究进展或案例报道，确认致病性后纳入CRP(临床可报病原体数据库)。

[0081]CCRP数据库(临床重点关注病原体数据库)通过以下方法建立：按照文献和耐药监测公布信息中涉及到的致病菌建立。例如：CHINET中国细菌耐药监测网(https://wenku.baidu.com/view/c24ea223bf1e 650e52ea 551810a6f524ccbfcbe1.html)；重要文献，如《临床微生物学手册》、行业中重要综述文章等。[0082]背景库通过以下方法建立：选取相同样本类型、检测类型和菌种类型的历史检测数据进行分析，挑选在所有历史样本中出现频率大于50％的菌种，组成该样本类型、检测类型和菌种类型的背景库。[0083](3)准备相关的配置文件，包括CRP数据库的路径，CCRP数据库的路径，背景库的路径等信息。[0084](4)运行程序进行解读和生成报告。[0085]参数1：信息分析的结果路径(inpath)[0086]参数2：输出路径(outpath)[0087]perl auto_report.pl inpath outpath[0088](5)在输出路径(outpath)下载自动解读自动生成的报告。

CN 110751984 A[00]

说　明　书

6/17页

实施例2

[0090]一种宏基因组或宏转录组测序数据自动化分析方法，其逻辑流程如图1-4所示，包括以下步骤：[0091]一、获取测序数据。

[0092]获取待分析样本的宏基因组或宏转录组测序下机数据，以基因序列信息匹配微生物类型，得到初始菌种列表。[0093]例如，获取一例临床待分析样本(“test1”，肺泡灌洗液)，以基因序列信息匹配微生物类型，获取信息分析的结果注释文件：细菌结果：“test1.bac.anno”，病毒结果：“test1.virus.anno”，真菌结果：“test1.fungi.anno”，寄生虫结果：“test1.parasite.anno”。

[0094]按照不同的背景库类型，选取相应背景库进行比对。具体如：[0095]其中细菌检出57个结果，病毒检出2个结果，真菌检出5个结果，寄生虫检出5个结果，一共69个结果，具体如下表所示。[0096]表1.初始菌种列表

[0097]

CN 110751984 A

说　明　书

7/17页

[0098]

CN 110751984 A

说　明　书

8/17页

[0099]

CN 110751984 A

说　明　书

9/17页

[0100]

注：以上*表示属于该类菌种，但没有对应的中文翻译，如葡萄球菌*表示是葡萄球

菌，但是无更明确性别，性别的含义如沃氏葡萄球菌，头葡萄球菌等。[0102]二、CRP数据库过滤。

[0103]将上述初始菌种列表中的各菌种与预设临床可报病原体数据库(CRP)中的菌种进行比对，保留记载于所述临床可报病原体数据库中的菌种和相对丰度大于阈值的菌种，得CRP数据库过滤后菌种列表。[0104]具体为，将初始菌种列表中的各菌种与预设临床可报病原体数据库中的菌种进行比对，按照下述方法处理：[0105]S1：如一菌种存在于所述临床可报病原体数据库菌种名单中，保留该菌种；[0106]S2：如一菌种不存在于所述临床可报病原体数据库菌种名单中，则考察该菌种的相对丰度，如该菌种的相对丰度大于10％，则保留该菌种，如该菌种的相对丰度小于10％，则将该菌种过滤。

[0107]可以理解的，上述过滤阈值在本实施例中为20％，但具体选用范围，也可根据具体的情况灵活调整，如5％-25％等。

[0108]按照上述方法进行CRP数据库过滤，不存在CRP数据库或者存在于CRP数据库但是相对丰度小于10％的结果共9个，过滤后剩余60个结果，如下表所示。[0109]表2.CRP数据库过滤后菌种列表

[0101]

[0110]

CN 110751984 A

说　明　书

10/17页

[0111]

CN 110751984 A

说　明　书

11/17页

[0112]

[0113]

三、背景库过滤。

[0114]将上述CRP数据库过滤后菌种列表中的各菌种与预设背景库中的菌种进行比对，保留未记载于所述背景库中的菌种和相对丰度大于阈值的菌种，得背景库过滤后菌种列表。

[0115]具体的，将CRP数据库过滤后菌种列表中的各菌种与预设背景库中的菌种进行比对，按照下述方法处理：[0116]S1：如一菌种不存在于所述背景库菌种名单中，保留该菌种；

CN 110751984 A[0117]

说　明　书

12/17页

S2：如一菌种存在于所述背景库菌种名单中，则考察该菌种的相对丰度，如该菌种

的相对丰度大于阈值，则保留该菌种，如该菌种的相对丰度小于阈值，则将该菌种过滤。[0118]上述背景库来源于历史数据分析，挑选在所有历史样本中出现频率大于50％的菌种，即为背景库，然后统计每个菌的相对丰度分布，本实施例中以相对丰度5％为过滤阈值。[0119]按照上述方法进行背景库过滤，过滤掉10个结果，过滤后剩余48个结果，如下表所示。

[0120]表3.背景库过滤后菌种列表

[0121]

CN 110751984 A

说　明　书

13/17页

[0122]

四、差异性比较。

[0124]统计本批次内阴性对照样本(健康人血液样本，NC样本)中检测到的对应菌种，获得阴性菌种目录；分析上述背景库过滤后菌种列表中的各菌种，保留检测序列数大于阈值的菌种，然后与所述阴性菌种目录进行比对，保留未记载于所述阴性菌种目录中的菌种，以及待分析样本检测序列数与阴性对照样本检测序列数比值大于阈值的菌种，得差异性比较后菌种列表，具体如下：[0125]对于细菌和真菌：[0126]S1：如待分析样本中检测到的序列数小于阈值(本实施例为3条)，则将该菌种过滤；

[0127]S2：如待分析样本中检测到的序列数大于等于阈值(本实施例为3条)，则进入下一步分析，将各菌种与阴性菌种目录中的菌种进行比对：[0128]S21：如该菌种未记载于所述阴性菌种目录中，保留该菌种；

[0123]

CN 110751984 A[0129]

说　明　书

14/17页

S22：如该菌种记载于所述阴性菌种目录中，则分析该菌种在待分析样本中检测到

的序列数和在阴性对照样本中检测到的序列数：[0130]S221：如一菌种在待分析样本中检测到的序列数≥50，且在待分析样本中检测到的序列数与在阴性对照样本中检测到的序列数的比值≥3，保留该菌种；[0131]S222：如一菌种在待分析样本中检测到的序列数≥50，且在待分析样本中检测到的序列数与在阴性对照样本中检测到的序列数的比值＜3，则将该菌种过滤；[0132]S223：如一菌种在待分析样本中检测到的序列数≥3且小于50，且在待分析样本中检测到的序列数与在阴性对照样本中检测到的序列数的比值≥5，保留该菌种；[0133]S224：如一菌种在待分析样本中检测到的序列数≥3且小于50，且在待分析样本中检测到的序列数与在阴性对照样本中检测到的序列数的比值＜5，则将该菌种过滤；[0134]对于病毒和寄生虫：[0135]S1：如待分析样本中检测到的序列数小于阈值(本实施例中，病毒为3，寄生虫为100)，则将该菌种过滤；[0136]S2：如待分析样本中检测到的序列数大于等于阈值，则进入下一步分析。[0137]按照上述方法进行差异性比较，过滤掉43个结果，过滤后剩余5个结果，如下表所示。

[0138]表4.差异性比较后菌种列表

[0139]

五、属内菌种排名。

[0141]按照细菌，病毒，真菌，寄生虫的类别分别对各菌种进行排名，其中，属按照属的总相对丰度排名，种按照种的序列数排名；按照预设规则，截取排名靠前的菌种，得属内菌种排名后列表，具体如下：

[0142]细菌和真菌的排名规则：[0143]S1：对于菌种排名在前5个属的前2种菌种，如排名第1菌种的序列数和排名第2菌种的序列数的比值≥10，则排名第1的菌种保留，排名第2的菌种过滤；如排名第1菌种的序列数和排名第2菌种的序列数的比值<10，则排名第1的菌种和排名第2的菌种都保留；[0144]S2：对于菌种排名不在前5个属的前2种菌种：则将该菌种过滤；[0145]病毒的排名规则：[0146]S1：对于菌种排名在前5个种的前2型：如排名第1型序列数和排名第2型序列数的比值≥10，则排名第1型保留，排名第2型过滤；如排名第1型序列数和排名第2型序列数的比

[0140]

CN 110751984 A

说　明　书

15/17页

值<10，则排名第1型和排名第2型都保留；[0147]S2：对于菌种排名不在前5个种的前2型：过滤；[0148]寄生虫的排名规则：如菌种排名在前10种的寄生虫，保留；如菌种排名不在前10种的寄生虫，过滤。

[0149]按照上述方法进行属内菌种排名，过滤掉1个结果，过滤后剩余4个结果，如下表所示。

[0150]表5.属内菌种排名后列表

[0151]

六、CCRP数据库增补。

[0153]将上述步骤中过滤排除的菌种，与预设临床重点关注病原体数据库中的菌种进行比对分析，保留符合预定条件的菌种，具体如下：[0154]对于经差异性比较步骤过滤的菌种：[0155]S1：如该菌种存在于所述临床重点关注病原体数据库中，且该菌种的相对丰度大于阈值，则保留该菌种；[0156]S2：如该菌种不存在于所述临床重点关注病原体数据库中，则将该菌种过滤；[0157]对于经属内菌种排名步骤过滤的菌种：[0158]S1：如该菌种存在于所述临床重点关注病原体数据库中，则保留该菌种；[0159]S2：如该菌种不存在于所述临床重点关注病原体数据库中，则将该菌种过滤。[0160]表6.CCRP数据库增补后菌种列表

[0152]

CN 110751984 A

说　明　书

16/17页

[0161]

七、结果输出。

[0163]将上述各步骤分析处理后保留的菌种结果，即表6所示菌种列表中的菌种输出。[01]实施例3

[0165]按照上述实施例1-3的方法建立自动化分析系统，在自动化分析系统正式投入使用之前需要进行系统性的评估，评估自动解读与人工解读的一致性程度，是否满足需求。[0166]随机挑选了2019年8月4日至2019年8月26日之间本公司临床样本中6个批次共0份人工解读的历史样本，使用本发明的自动化分析系统重新进行解读。然后在结果层面统计人工解读与自动解读的一致性，结果如下：[0167]表7.一致性评价

[0168]

[0162]

一致性例数百分率一致88198.98％不一致91.02％

[0169]与人工解读的一致性高达98.98％，同时能解决人工解读存在一些误差。如本系统人工解读和自动分析解读不一致的9例中，5例是由于人工解读时漏掉了排名靠后的重要病原体造成，3例是由于人工解读强阳判读不统一，存在主观性造成，1例是由于在人工解读时特殊病原体的属名未校正导致。

[0170]即通过自动化分析系统解读宏基因组或宏转录组测序数据，可以解决人工解读存在的误差，如容易漏掉一些属种排名靠后的特殊病原体等。[0171]实施例4[0172]宏基因组或宏转录组测序数据自动化分析方法在回溯检测样本数据纠错中的应用。

[0173]在解读样本过程中，经常会遇到需要回溯历史样本的分布来辅助解读的情况，在完全人工解读的情况下，面对成千上万的历史样本，这几乎是一项不可能完成的事情，但是

CN 110751984 A

说　明　书

17/17页

配合上述自动化分析方法，则回溯历史样本的信息成为可能。[0174]例如，下述以大肠埃希菌和福氏志贺菌的回溯为例进行说明。[0175]大肠埃希菌和福氏志贺菌的基因组序列高度相似，目前宏基因组学的方法很难将其彻底的区分开，检测到大肠埃希菌的同时往往伴随着福氏志贺菌的检出，但是在数据层面，两者被检出的序列数分布通常会呈现一定的规律。因此当一份临床样本同时检测到大肠埃希菌和福氏志贺菌，回顾历史样本两个菌的序列数分布规律，成为辅助解读的其中一种方法，但是面对几千份的历史数据，人工很难完成，只能通过自动化的方法进行。[0176]例如，已知大肠埃希菌的标准品，经过标准化的信息分析后，检测到大肠埃希菌116条，福氏志贺菌42条。为了确定真实的菌种是否有福氏志贺菌，调取历史数据进行自动化分析，得到如图5所示结果，图中一个点对应一个样本，横坐标为样本检出的大肠埃希菌的序列数，纵坐标为对应检出的福氏志贺菌的序列数，中间的线为两个的拟合曲线，右上角的公式为拟合函数和拟合系数，可以看出有较强的相关性。[0177]从图中的分布的结果可以看出，临床样本大肠埃希菌和福氏志贺菌的数值分布在正常的波动范围内，未特异性高出背景，支持解读判断为样本中只有大肠埃希菌没有福氏志贺菌，与标准品混合结果一致。

[0178]以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明载的范围。

[0179]以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

CN 110751984 A

说　明　书　附　图

1/5页

图1

CN 110751984 A

说　明　书　附　图

2/5页

图2

CN 110751984 A

说　明　书　附　图

3/5页

图3

CN 110751984 A

说　明　书　附　图

4/5页

图4

CN 110751984 A

说　明　书　附　图

5/5页

图5

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文