非酒精性脂肪性肝病的肠道微生物和代谢物特征
2024-03-24

研究背景
特定的微生物群及其相关代谢物与非酒精性脂肪肝病(NAFLD)的联系仍然存在争议。因此,我们旨在理解核心肠道微生物群和代谢物如何影响NAFLD。
 
方法
发现队列的数据来自2014年至2018年进行的广州营养与健康研究(GNHS)的研究随访。我们从1546名个体中收集了272个元数据点。这些元数据被输入到四个可解释的机器学习模型中,以识别与NAFLD相关的重要肠道微生物群。这些模型随后应用于两个验证队列[内部验证队列(n=377),和前瞻性验证队列(n=749)]以评估其普适性。我们基于识别出的肠道微生物群构建了一个个体微生物组风险评分(MRS),并使用不同MRS水平个体的粪便样本进行了动物粪便微生物组移植实验,以确定MRS与NAFLD之间的关系。此外,我们还对粪便样本进行了靶向代谢组测序,以分析潜在的代谢物。
 
结果
在使用的四种机器学习模型中,lightGBM算法的表现最佳。lightGBM算法选择了12个与微生物群相关的特征,并进一步用于计算MRS。MRS的增加与NAFLD的存在呈正相关,每增加1单位MRS,其比值比(OR)为1.86(1.72,2.02)。粪便微生物群中的f_veillonellaceae丰度增加与NAFLD风险增加相关,而f_rikenellaceae、f_barnesiellaceae和s_adolescentis与NAFLD的风险减少相关。特定肠道微生物群衍生的胆汁酸代谢物(如牛磺胆酸)的水平较高可能与较高的MRS和NAFLD风险正相关。在小鼠中进一步的粪便微生物群移植(FMT)实验确认了较高MRS与NAFLD发展之间的因果关系。
 
引言
非酒精性脂肪肝病(NAFLD)是最常见的慢性肝脏疾病,影响全球25%的成年人,并且是包括心血管疾病(CVDs)和肝癌在内的多种疾病的主要风险因素,导致全球死亡人数增加。除了遗传倾向和饮食外,肠道微生物群已成为促进NAFLD发展的环境因素之一。目前,尚无批准的治疗方法;然而,调节肠道微生物群与生活方式因素相结合,可能为NAFLD提供一种替代干预措施。
    肠道菌群组成对非酒精性脂肪肝病(NAFLD)发展的潜在因果效应已经被揭示,并通过动物粪便菌群移植实验得到支持,这些实验在小鼠中诱导了小鼠肝大泡性脂肪变性。此外,一项人群研究发现,在非酒精性脂肪性肝炎(NASH)患者的菌群中,产酒精细菌的丰度显著增加,同时血液乙醇浓度升高。随后,许多动物研究和少数人类研究表明,益生菌、益生元或联合益生素在重塑肠道菌群组成和活动方面发挥有益作用,从而改善肝脏表型。已经提出了几种机制来解释肠道菌群在NAFLD发展中的作用,包括影响从饮食中吸收的能量量,改变肠道通透性导致细菌迁移和有毒细菌产品的并行释放,改变参与新生脂肪生成和代谢信号通路的基因表达,肠道产生乙醇,以及与先天免疫的相互作用。
   此外,肠道菌群产生的各种代谢产物可能调节NAFLD的易感性,例如,肠道菌群发酵不可消化的碳水化合物(如膳食纤维)产生的代谢产物,如短链脂肪酸(SCFAs)、丙酸、丁酸和琥珀酸,可能在体重控制、炎症状态、葡萄糖和脂质稳态中发挥有益作用。NAFLD中胆汁酸代谢的失调可能导致能量消耗增加和慢性炎症状态,而NASH患者中脱氧胆酸的产生增加,归因于产生次级胆酸的细菌的丰富度增加,抑制了FXR信号传导,阻碍了肝脏和肠道中的脂质和葡萄糖代谢。氨基酸和胆碱的失调导致脂质积累和慢性炎症。
    全球的研究人员已经做出了巨大努力,以研究什么构成了人类“良好”的肠道菌群,正如他们对NAFLD所做的那样。许多流行病学研究已经评估了健康个体与NAFLD患者之间肠道菌群的分布。在一些研究中观察到NAFLD患者的细菌α或β多样性降低,但并非所有研究都是如此。对于特定的微生物类群,54项研究(8894名参与者)的荟萃分析显示,抗炎微生物(即瘤胃球菌科和粪球菌属)的减少,以及促炎微生物(即梭菌属和大肠杆菌属)在NAFLD患者中的丰富;然而,存在显著的研究间异质性,且大多数先前的证据都是基于样本量有限的横断面研究。
    大多数先前研究的另一个局限性是传统统计方法的应用,这些方法通常单独考虑每个细菌群体的效应,但并没有充分考虑微生物群体之间的相互作用,甚至是与多种生活方式因素、复杂的实验室和临床参数的相互作用。基于细菌丰度的可解释机器学习(ML)算法的发展已取得显著进展,这些算法已成为识别肠道微生物组特征的有用工具,并有助于诊断特定疾病,如2型糖尿病(T2DM)和癌症。一项包含90对有/无NAFLD进展的匹配参与者的嵌套病例对照研究提供了NAFLD进展与随机森林(RF)识别的肠道菌群特征之间关联的证据。然而,需要进行更多系统的机器学习算法比较,以探索NAFLD发展与粪便菌群特征之间的关联。
 
本研究旨在基于不同的机器学习模型(随机森林(RF)、支持向量机(SVM)、逻辑回归和lightGBM模型)识别与NAFLD相关的人类肠道菌群特征。我们还检查了模型中选定的特征是否与粪便或血清代谢物在生物学上相关。此外,还使用了涉及粪便菌群移植(FMT)的动物模型,以验证来自NAFLD患者的肠道菌群对高脂饮食诱导的NAFLD小鼠肝脏表型的因果效应。
 
实验设计

图1 用于发现队列的筛选过程和实验设计

 
研究结果:
1、模型性能
      图2A显示,ROC曲线表明lightGBM模型具有最佳性能,在发现队列中达到了最高的AUC 0.829,其次是支持向量机(AUC=0.719)、逻辑回归(AUC=0.694)和随机森林(AUC=0.654)模型。就调整后的发现队列和其他三个验证队列而言,LightGBM模型在所有训练有素的基于深度学习的分割模型中预测性最高,AUC在0.762到0.984之间。四个队列中所有四个模型的指标在附加文件2:表S1中提供。总共收集了272个特征,之后由LightGBM机器学习算法选出了前20个预测变量,这些选定的特征达到了AUC 0.815,表明这些特征的预测能力与整体输入的272个特征相似(AUC=0.829)(附加文件2:表S2)。

     使用重要性矩阵图,我们确定了对模型预测能力影响最大的前20个特征。如图2B所示,与NAFLD风险相关的最高SHAP值的三个特征是体质指数(BMI)、总甘油三酯(TG)水平、腰围、空腹葡萄糖(Glu)水平、性别、12个与微生物群相关的特征,以及三种食物摄入参数(鱼、酸奶和蔬菜摄入)。如图2C显示,BMI、TG浓度、腰围、谷氨酸摄入、鱼摄入以及两个微生物特征(f_veillonellaceae和g_clostridiaceaeother)的SHAP值越大,NAFLD的可能性就越大。相反,当男性性别、蔬菜摄入以及五个微生物特征(g__klebsiella、s__acidifaciens、s__adolescentis、s__bifdobacteriumother和g__anaerostipes)的SHAP值增加时,检测到NAFLD的可能性就较小。此外,大多数选定的12个与分类相关的特征之间存在低到中等的相互关联(附加文件2:图S1)。SHAP依赖图显示了这20个选定特征的几个最佳阈值,用于评估这些特征对LightGBM预测能力的边际效应(附加文件2:图S2)。我们注意到,BMI、TG水平、腰围、血糖、鱼类摄入量的增加,以及四种微生物(p_fusobacteria、f_veillonellaceae、g_clostridiaceaeother和f_rikenellaceae)的丰度增加,可能会增加NAFLD的风险。而女性、提高的蔬菜摄入量,以及f_barnesiellaceae、g_klebsiella、s_acidifaciens、o_turicibacterales、s_adolescentis、s_bifdobacteriumother和g_anaerostipes的丰度增加,可能会降低NAFLD的风险。

图2 基于机器学习模型输出的结果。

     A 根据ROC曲线下面积AUC评估四种机器学习算法。B 基于LightGBM机器学习算法和SHAP值选择的前20个特征的重要性矩阵图,显示了每个变量对NAFLD的相对贡献。C 基于LightGBM机器学习算法和SHAP值选择的前20个特征的SHAP总结图,其中每个特征的每个个体的一个点根据归因值着色,红色表示更高的值,蓝色表示较低的值。更高的SHAP值表示NAFLD的风险更大。
2、计算MRS及其与NAFLD的关联
    基于12个选定的微生物特征,我们计算了MRS(范围0-12),以评估个体对NAFLD发展的微生物组风险(表2)。根据我们的逻辑回归分析,在发现队列中,男性与MRS之间存在显著的负相关。相比之下,BMI和腰围与MRS均呈正相关。



    根据我们的逻辑回归分析,在发现队列中,MRS的1单位变化与NAFLD的发生几率增加正相关(原始OR=1.85 [95% CI 1.71, 1.99]; P<0.001)。这种关联在模型3中持续存在,模型3调整了大多数潜在预测因素,包括年龄、性别、婚姻状况、教育、收入、吸烟状况、饮酒状况、茶状况和总能量摄入(OR=1.86 [95% CI 1.72, 2.02]; P<0.001)。在内部验证队列中也观察到了类似的结果,其中原始和多变量OR及其对应的95% CI分别为1.21 (1.07, 1.36; P=0.003)和1.20 (1.06, 1.37; P=0.004);在前瞻性验证队列中,原始和多变量OR及其对应的95% CI分别为1.73 (1.56, 1.92; P<0.001)和1.77 (1.58, 1.97; P<0.001)(图3;附加文件3:表S2)。根据敏感性分析,在模型4中,MRS与NAFLD发生率之间的正相关性在发现队列和内部验证队列中仍然显著,模型4进一步调整了BMI,表明结果的稳健性。