1 第二代高通量测序技术(NGS)自诞生以来在临床诊断研究中就得到了特别的重视,尤其是基于宏基因组的第二代高通量测序技术(mNGS),作为一种不需培养的新型检测技术可以深入快速鉴定未知感染病原体,相比传统培养方法拥有极高的敏感性,可以识别环境中单条核苷酸序列。一系列的临床测试成功的表明了mNGS技术在血液、尿液、脑脊液等不同类型组织液中均有很好的检出效果,大量的临床应用也正在开展(表1)。 表1. mNGS的临床应用 从AlphaGo人机大战等事件发生以来,人工智能得到了越来越多的关注。复杂多变的mNGS检测结果,正是人工智能施展的绝佳领域。知识图谱技术是人工智能技术的组成部分,知识图谱是关系的最有效的表示方式。挖掘潜在关系,构建逻辑认知,通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络,提供了从“关系”的角度去分析问题的能力。 作为人工智能的核心技术之一,将知识图谱用于辅助医学诊断的尝试,揭示了其蕴含的巨大价值。mNGS检测数据是对环境中百万级别的核苷酸序列进行测序,并通过物种注释后得到的结果。mNGS技术就像一个功能强大的显微镜,不放过环境中任何细节的变化的同时也极易受到环境因素的干扰。通过清洗感染病例数据,获得感染症状与感染微生物相关关系;通过大规模的mNGS数据观测获得感染微生物的数学关系。经过深度学习后,知识图谱帮助我们快速对检测结果进行机器解读,当每天面对成百上千份需要耗费大量人工解读的mNGS结果时,一个智能化辅助诊断系统就显得特别重要。 图1 一个例子可以更好的理解机器学习读取临床记录构建知识图谱的过程(图1):从“主因间断咳嗽,咳痰7d,腹胀、腹痛3d,加重伴发热、呼吸困难2d入院”中,抽取实体:咳痰、腹胀、腹痛、发热、呼吸困难;从“腹部感染排除结合患者病情重症肺炎诊断明确”中抽取实体:腹部感染、肺炎,抽取关系:排除和诊断明确;定义“回报”和“阳性”为同义,从“血培养为回报为金黄色葡萄糖球菌”中抽取属性:血培养阳性,属性值:金黄色葡萄糖球菌;从“痰培养泛耐药鲍曼不动杆菌阳性”中抽取属性:痰培养阳性,属性值:鲍曼不动杆菌。将实体“肺炎”同实体“咳痰、腹胀、腹痛、发热、呼吸困难”等用关系“症状”连接起来,标记实体“肺炎”的“血培养阳性”的属性为“金黄色葡萄糖球菌”,“痰培养阳性”的属性为“鲍曼不动杆菌”。大量的记录和文献被机器读取后,不同的实体之间通过融合删减形成了一个新的巨大的关系网络。对关系网络进行模式化管理,形成不同的本体,提炼为知识图谱。 图2. 知识图谱辅助感染病例的诊断 使用知识图谱和大队列数据的深度学习,最终可以得到一个诊断模型,帮助寻找疾病-症候-感染之间的相互关联,对于mNGS数据结果进行权重排序,揭示潜在的感染元凶,帮助临床医生从大量的检测数据中获取最关键的信息。在典型的致病菌感染中,抽丝剥茧,寻找帮凶,推测病因。在非典型致病菌感染案例中,优度排序,排除背景,锁定线索。为最终的诊断结果提供智能化建议。大大节约临床医生的精力和时间,同时减少个性化分析中的差异性(图2)。 结语:在IT领域,搜索引擎每天从海量的信息中检索期望的结果,利用知识图谱的个性化推荐,大大改善了用户体验;在BT领域,知识图谱的应用也必将方方面面提升对于数据的深度理解,在多维的检测结果中找寻可能的轨迹,为临床医生和患者提供最大的帮助。 |