遗传关联性 Meta 分析将多个研究的数据整合,通过增大样本量以提高统计效能,成为探求真实遗传关联性的有效途径。Meta 分析为遗传关联性证据的产生带来机遇,但同时也给此类证据的利用带来挑战。因此,合理评价证据的可信度确有必要。本文主要介绍如何使用 Venice 标准从分子流行病学角度评价遗传关联性 Meta 分析证据的可信度。评估指标包括证据量、重复性及偏倚控制三方面,最后综合三方面的分级结果,得出“强”、“中等”、“弱”三个等级结果。通过对遗传关联性 Meta 分析证据可信度的评估,为进一步的研究及证据的临床转化提供明确信息。
引用本文: 赵向, 仇成凤, 史志华, 邓紫薇, 翁鸿, 杨宜华, 谭力铭, 曾宪涛. 遗传关联性 Meta 分析证据可信度评价. 中国循证医学杂志, 2018, 18(8): 883-887. doi: 10.7507/1672-2531.201804142 复制
近年,随着高通量基因检测技术的发展,每年有大量研究报道了基因多态与人类疾病的关联性。由于遗传关联性研究的效应量指标通常较小,因此常需要较大样本量以获得真实的遗传关联性。系统评价/Meta 分析能整合多个研究数据,通过增大样本量来提高统计效能,成为探求真实遗传关联性的有效途径。遗传关联性 Meta 分析为生产和传播遗传关联性证据带来机遇,但同时也给此类证据的利用带来挑战。因此,合理评价遗传关联性 Meta 分析证据的可信度非常重要。本文介绍如何应用 Venice 标准[1]评价遗传关联性 Meta 分析证据的可信度。
1 Venice 标准简介
Venice 标准由 HuGENet(Human Genome Epidemiology Network)工作组于 2007 年提出,并随着研究的发展不断更新[2, 3]。该标准主要从证据量、重复性及偏倚控制三方面来评估遗传关联性 Meta 分析证据的可信度。三个评价指标的评价标准与解释说明见表 1。
2 证据量
证据的有效性主要取决于是否能够发现真实的遗传关联性,主要影响因素包括样本量、基因分析模型、基因突变频率及效应量的大小。足够的样本量可提高统计效能、增加统计学意义的显著性及减少结果报告的假阳性率[4, 5]。在遗传关联性研究中,由于存在基因分析模型不同及不同人群的基因突变频率不同等因素,因此所有比较组中基因突变频率较低组的基因型样本量(nminor)是影响效能的关键因素。Venice 标准使用 nminor 作为评估证据量的直接指标。
那么,如何设定证据量的分级阈值?由表 2 可知,假定病例组与对照组样本量相等,nminor=1 000,最小基因突变率(fminor)变化范围在 0.01~0.50。当 α=0.05,OR 值在 1.3~5 时可得到较高的统计效能(81~100%);当 OR 值为 1.2 时,统计效能随着样本量的减少而下降(51~82%);当 OR 值为 1.1 时,基本失去统计效能(18~32%)。当 nminor=500、OR 值为 1.1~1.3 时统计效能大幅度下降,当 nminor=1 500 时,统计效能却并没有明显增加(表 2 中未显示)[1]。基于统计效能的稳定性,Venice 标准设定 nminor=1 000 作为 A 级与 B 级的分级阈值。但是需要注意的是,当 α=10-7(多推荐用于发现性研究,如 GAWS 等)时,nminor=1 000 仅在 OR≥2 时方能保证稳定的统计效能(96%~100%),因此当 Meta 分析中纳入 GAWS 研究,仍需增加样本量以保证统计效能。
3 重复性
独立原始研究结果的可重复性是影响 Meta 分析结果可信度的重要因素。在遗传关联性研究中,不同研究阶段对具有统计学显著性意义的 α 值设定不同。在识别发现阶段如 GAWS 研究中,通过同时分析成千上万个基因的突变情况来发现与筛选基因多态性与疾病的关联性,为了保证结果的真实性与可信度,建议将 α 值设定为 10–7;而在后续的重复验证阶段,主要探讨一个或多个候选基因多态性与疾病的关联性,这时将 α 值设定为 0.05 较为合适[6, 7]。
对于真实存在的遗传关联性,如果独立原始研究间缺少重复性和同质性,需要慎重分析其潜在影响因素。首先考虑是否存在错误或偏倚,主要包括表型定义非标准化、基因分型错误、人群分层不适宜及选择性报告等[8-10]。在后续重复验证阶段,基因的连锁不平衡在不同人群的不一致可能是导致独立研究存在异质性的原因之一[11]。因此,独立研究间缺少重复性也不能完全否定之前所发现的基因-疾病关联性,在排除潜在的错误与偏倚外,独立研究间的异质性可能也是基因效应的真实反映[11]。此外,尚需评估原始研究间的独立性。原始研究的独立性方能确保真实的“重复性”[12]。由不同的研究团队在不同的人群中探讨同一基因多态性-疾病的关联性是保证原始研究独立性的最佳措施。如果由同一个研究团队在不同人群中去进行某个遗传关联性的重复验证,或将未进行合并分析人群的分层分析视为独立研究均会因缺乏独立性导致潜在偏倚增加[13]。
总之,对于重复验证的某个遗传关联性,原始研究之间的独立性和重复性是提高累积证据可信度的重要因素。在进行系统评价或 Meta 分析时,通常计算异质性(I2)对结果的重复性进行估算与分级(表 1)。
4 控制偏倚风险
偏倚不仅会影响真实遗传关联效应值的大小,甚至会决定是否存在统计学意义的差异(结果的方向)。由于遗传关联性的效应指标通常较小,因此,采取恰当的措施尽可能控制偏倚风险对于发现真实的遗传关联分析十分重要。偏倚风险存在于实施原始研究阶段和证据整合阶段。许多因素都可导致偏倚的发生,包括研究设计、DNA 提取、基因分型、原始数据管理和分析、结果报告及结果合并方法(Meta 分析方法)等[14-17]。
遗传关联性研究主要偏倚包括表型定义非标准化、基因分型错误、人群分层不适宜及选择性报告等(表 3)[8-10]。各研究对同一表型的非标准化定义常导致偏倚。即使在当今高通量分型技术高速发展的阶段,基因分型错误仍然非常普遍。由于病例组与对照组的受试对象是分别招募的,因此基因分型错误对病例组与对照组会产生不同的效应,影响对真实遗传关联性的发现。那么,如何评价基因分型质量?首先,使用盲法重复验证部分样本的基因分型情况;第二,采用不同的基因分型方法对同一人群进行重复验证;第三,对病例组与对照组分别进行 Hardy-Weinberg 平衡检测[9]。对于部分样本基因分型数据缺失情况,需要额外分析缺失状态下病例-对照表型情况来验证缺失数据对结果的影响。此外,人群的不适当分层会导致偏倚,尤其对于效应指标较小的遗传关联分析,不恰当的人群分层会产生严重偏倚,从而影响结果的真实性。在研究实施过程中,通常采用基因组控制(genomic control)和主成分分析等统计学方法来矫正人群结构对于遗传关联性研究结果的影响[18]。选择性报告结果(阳性结果发表)是导致系统评价和 Meta 分析结果出现偏倚的重要因素。为降低选择性偏倚,不同研究团队应该有明确的方法确保能够分析所有受试人员数据,同时鼓励发表高质量的阴性结果[19, 20]。对于回顾性研究的 Meta 分析,除了需要排除前面提及的 4 种主要偏倚外,应使用敏感性分析评估首个研究、占最大效应量比例研究和占最小效应量比例的研究、Hardy-Weinberg 不平衡的研究对合并效应值的影响[15]。
研究透明度和结果报告所遵循的指南是判断偏倚的重要准则。表 3 详细列出 4 种常见偏倚在控制或不控制的情况下对单个研究或 Meta 分析效应值的影响,根据偏倚是否影响实际效应值的统计学显著性意义进行分级。在证据产生过程中,导致偏倚的因素非常多,即使采取严格的措施控制偏倚,仍无法完全控制或消除偏倚对实际效应值的影响,因此即使偏倚控制分级为“A”,仍建议使用“可能不存在偏倚”来定义。
当偏倚对效应值的统计学显著性意义影响为“低/无”,则定义为“A”;如果为“不清楚”,定义为“B”;如果为“可能/高”,则定义为“C”。对于选择性偏倚,如果为“可能”,则不需要从“A”降至“C”。在 Meta 分析中,可采用敏感性分析判断微效应值和大效应值研究对于合并结果的影响。此外,如果发现研究的其它方面如研究设计、实施过程及数据分析等存在明显偏倚,则定义为“C”。
5 可信度判定标准组合
对于某个遗传关联性的系统评价或 Meta 分析,分别从证据量、重复性和偏倚控制三方面进行分级(A、B 或 C),然后将分级结果进行组合用以评判累积证据的总体可信度。其评判标准见图 1:
可信度强:证据量、重复性和偏倚控制都为“A”,如“AAA”;
可信度中等:证据量、重复性和偏倚控制级别为“A”或者“B”,如“ABA”、“ABB”等;
可信度弱:证据量、重复性和偏倚控制评级结果中有一个或两个或全部为“C”,如“ABC”、“ACC”、“CCC”等。
6 小结
遗传关联性研究证据在不断发展,Meta 分析证据可信度会随着新证据不断产生而发生变化。Venice 标准主要从分子流行病学角度来评估证据的可信度,我们需综合考虑遗传关联性研究发展阶段、基因生物学功能及临床相关性等多方面因素来判断证据的可信度与价值,以期为进一步研究及临床转化提供明确信息。
近年,随着高通量基因检测技术的发展,每年有大量研究报道了基因多态与人类疾病的关联性。由于遗传关联性研究的效应量指标通常较小,因此常需要较大样本量以获得真实的遗传关联性。系统评价/Meta 分析能整合多个研究数据,通过增大样本量来提高统计效能,成为探求真实遗传关联性的有效途径。遗传关联性 Meta 分析为生产和传播遗传关联性证据带来机遇,但同时也给此类证据的利用带来挑战。因此,合理评价遗传关联性 Meta 分析证据的可信度非常重要。本文介绍如何应用 Venice 标准[1]评价遗传关联性 Meta 分析证据的可信度。
1 Venice 标准简介
Venice 标准由 HuGENet(Human Genome Epidemiology Network)工作组于 2007 年提出,并随着研究的发展不断更新[2, 3]。该标准主要从证据量、重复性及偏倚控制三方面来评估遗传关联性 Meta 分析证据的可信度。三个评价指标的评价标准与解释说明见表 1。
2 证据量
证据的有效性主要取决于是否能够发现真实的遗传关联性,主要影响因素包括样本量、基因分析模型、基因突变频率及效应量的大小。足够的样本量可提高统计效能、增加统计学意义的显著性及减少结果报告的假阳性率[4, 5]。在遗传关联性研究中,由于存在基因分析模型不同及不同人群的基因突变频率不同等因素,因此所有比较组中基因突变频率较低组的基因型样本量(nminor)是影响效能的关键因素。Venice 标准使用 nminor 作为评估证据量的直接指标。
那么,如何设定证据量的分级阈值?由表 2 可知,假定病例组与对照组样本量相等,nminor=1 000,最小基因突变率(fminor)变化范围在 0.01~0.50。当 α=0.05,OR 值在 1.3~5 时可得到较高的统计效能(81~100%);当 OR 值为 1.2 时,统计效能随着样本量的减少而下降(51~82%);当 OR 值为 1.1 时,基本失去统计效能(18~32%)。当 nminor=500、OR 值为 1.1~1.3 时统计效能大幅度下降,当 nminor=1 500 时,统计效能却并没有明显增加(表 2 中未显示)[1]。基于统计效能的稳定性,Venice 标准设定 nminor=1 000 作为 A 级与 B 级的分级阈值。但是需要注意的是,当 α=10-7(多推荐用于发现性研究,如 GAWS 等)时,nminor=1 000 仅在 OR≥2 时方能保证稳定的统计效能(96%~100%),因此当 Meta 分析中纳入 GAWS 研究,仍需增加样本量以保证统计效能。
3 重复性
独立原始研究结果的可重复性是影响 Meta 分析结果可信度的重要因素。在遗传关联性研究中,不同研究阶段对具有统计学显著性意义的 α 值设定不同。在识别发现阶段如 GAWS 研究中,通过同时分析成千上万个基因的突变情况来发现与筛选基因多态性与疾病的关联性,为了保证结果的真实性与可信度,建议将 α 值设定为 10–7;而在后续的重复验证阶段,主要探讨一个或多个候选基因多态性与疾病的关联性,这时将 α 值设定为 0.05 较为合适[6, 7]。
对于真实存在的遗传关联性,如果独立原始研究间缺少重复性和同质性,需要慎重分析其潜在影响因素。首先考虑是否存在错误或偏倚,主要包括表型定义非标准化、基因分型错误、人群分层不适宜及选择性报告等[8-10]。在后续重复验证阶段,基因的连锁不平衡在不同人群的不一致可能是导致独立研究存在异质性的原因之一[11]。因此,独立研究间缺少重复性也不能完全否定之前所发现的基因-疾病关联性,在排除潜在的错误与偏倚外,独立研究间的异质性可能也是基因效应的真实反映[11]。此外,尚需评估原始研究间的独立性。原始研究的独立性方能确保真实的“重复性”[12]。由不同的研究团队在不同的人群中探讨同一基因多态性-疾病的关联性是保证原始研究独立性的最佳措施。如果由同一个研究团队在不同人群中去进行某个遗传关联性的重复验证,或将未进行合并分析人群的分层分析视为独立研究均会因缺乏独立性导致潜在偏倚增加[13]。
总之,对于重复验证的某个遗传关联性,原始研究之间的独立性和重复性是提高累积证据可信度的重要因素。在进行系统评价或 Meta 分析时,通常计算异质性(I2)对结果的重复性进行估算与分级(表 1)。
4 控制偏倚风险
偏倚不仅会影响真实遗传关联效应值的大小,甚至会决定是否存在统计学意义的差异(结果的方向)。由于遗传关联性的效应指标通常较小,因此,采取恰当的措施尽可能控制偏倚风险对于发现真实的遗传关联分析十分重要。偏倚风险存在于实施原始研究阶段和证据整合阶段。许多因素都可导致偏倚的发生,包括研究设计、DNA 提取、基因分型、原始数据管理和分析、结果报告及结果合并方法(Meta 分析方法)等[14-17]。
遗传关联性研究主要偏倚包括表型定义非标准化、基因分型错误、人群分层不适宜及选择性报告等(表 3)[8-10]。各研究对同一表型的非标准化定义常导致偏倚。即使在当今高通量分型技术高速发展的阶段,基因分型错误仍然非常普遍。由于病例组与对照组的受试对象是分别招募的,因此基因分型错误对病例组与对照组会产生不同的效应,影响对真实遗传关联性的发现。那么,如何评价基因分型质量?首先,使用盲法重复验证部分样本的基因分型情况;第二,采用不同的基因分型方法对同一人群进行重复验证;第三,对病例组与对照组分别进行 Hardy-Weinberg 平衡检测[9]。对于部分样本基因分型数据缺失情况,需要额外分析缺失状态下病例-对照表型情况来验证缺失数据对结果的影响。此外,人群的不适当分层会导致偏倚,尤其对于效应指标较小的遗传关联分析,不恰当的人群分层会产生严重偏倚,从而影响结果的真实性。在研究实施过程中,通常采用基因组控制(genomic control)和主成分分析等统计学方法来矫正人群结构对于遗传关联性研究结果的影响[18]。选择性报告结果(阳性结果发表)是导致系统评价和 Meta 分析结果出现偏倚的重要因素。为降低选择性偏倚,不同研究团队应该有明确的方法确保能够分析所有受试人员数据,同时鼓励发表高质量的阴性结果[19, 20]。对于回顾性研究的 Meta 分析,除了需要排除前面提及的 4 种主要偏倚外,应使用敏感性分析评估首个研究、占最大效应量比例研究和占最小效应量比例的研究、Hardy-Weinberg 不平衡的研究对合并效应值的影响[15]。
研究透明度和结果报告所遵循的指南是判断偏倚的重要准则。表 3 详细列出 4 种常见偏倚在控制或不控制的情况下对单个研究或 Meta 分析效应值的影响,根据偏倚是否影响实际效应值的统计学显著性意义进行分级。在证据产生过程中,导致偏倚的因素非常多,即使采取严格的措施控制偏倚,仍无法完全控制或消除偏倚对实际效应值的影响,因此即使偏倚控制分级为“A”,仍建议使用“可能不存在偏倚”来定义。
当偏倚对效应值的统计学显著性意义影响为“低/无”,则定义为“A”;如果为“不清楚”,定义为“B”;如果为“可能/高”,则定义为“C”。对于选择性偏倚,如果为“可能”,则不需要从“A”降至“C”。在 Meta 分析中,可采用敏感性分析判断微效应值和大效应值研究对于合并结果的影响。此外,如果发现研究的其它方面如研究设计、实施过程及数据分析等存在明显偏倚,则定义为“C”。
5 可信度判定标准组合
对于某个遗传关联性的系统评价或 Meta 分析,分别从证据量、重复性和偏倚控制三方面进行分级(A、B 或 C),然后将分级结果进行组合用以评判累积证据的总体可信度。其评判标准见图 1:
可信度强:证据量、重复性和偏倚控制都为“A”,如“AAA”;
可信度中等:证据量、重复性和偏倚控制级别为“A”或者“B”,如“ABA”、“ABB”等;
可信度弱:证据量、重复性和偏倚控制评级结果中有一个或两个或全部为“C”,如“ABC”、“ACC”、“CCC”等。
6 小结
遗传关联性研究证据在不断发展,Meta 分析证据可信度会随着新证据不断产生而发生变化。Venice 标准主要从分子流行病学角度来评估证据的可信度,我们需综合考虑遗传关联性研究发展阶段、基因生物学功能及临床相关性等多方面因素来判断证据的可信度与价值,以期为进一步研究及临床转化提供明确信息。