Las mediciones clínicas en cardiología: validez y errores de mediciónClinical Measurement In Cardiology: Validity And Measurement Error
La medición constituye una pieza clave de la actividadclínica. Frecuentemente, sin embargo, se compruebala existencia de discrepancias entre las medicionesefectuadas por distintos clínicos o por elmismo clínico en 2 ocasiones diferentes. El origende esa variabilidad se puede encontrar en el propiosujeto objeto de la medición (el paciente), en elaparato de medida propiamente dicho, o en el observador.La calidad de una medición se compruebanormalmente evaluando su reproducibilidad y suvalidez. La reproducibilidad se evalúa básicamenteexaminando la concordancia entre observadores, laconcordancia intraobservadores y la concordanciatest-retest. Los parámetros utilizados para medirla(coeficiente de correlación intraclase, coeficientekappa, métodos gráficos, etc.) dependen del tipo devariable que se desea medir. La validez de la mediciónindica en qué medida la medición mide realmentelo que queremos medir. Cuando existe unaprueba de referencia, la validez se estima mediantesu comparación con el test (validez de criterio);cuando no existe una prueba de referencia aceptablese recurre a otras formas de validación que utilizancriterios subjetivos (validez de contenido yaparente) o empíricos (validez de constructo).
Measurements represent an essential part of clinicalactivity. Very often, however, relevant disagreementin clinical measurements becomes apparent.The sources of this variability are thesubjects (patients) that are measured, the measurementinstrument itself, and the observer. The assessmentof the quality of measurement usually relieson the evaluation of its reproducibility and itsvalidity. The reproducibility is basically measuredas the inter-observer concordance, the intra-observerconcordance, and the test-retest concordance.The specific parameter used to its quantification(intra-class correlation coefficient, kappa index,graphic methods, etc.) depend on the kind of variableto be measured. The validity of the measurementis the degree to which the measurement isreally measuring what we think it should. If an acceptablestandard is available, then so called criterionvalidity is usually assessed. Otherwise the validityshould be assessed by other ways that usesubjective criteria (content validity and face validity)or empirical criteria (construct validity).
Referencias Bibliográficas (27)
- A.R. Feinstein
A bibliography of publications on observer variability
J Chron Dis
(1985) - A.R. Feinstein et al.
High agreement but low kappa: I. The problems of two paradoxes
J Clin Epidemiol
(1990) - W.D. Thompson et al.
A reappraisal of the kappa coefficient
J Clin Epidemiol
(1988) - H.C. Kraemer et al.
Kappa coefficients in epidemiology: an appraisal of a reappraisal
J Clin Epidemiol
(1988) - X. Badia et al.
Validity and reproducibility of the spanish versionof the Sickness Impact Profile
J Clin Epidemiol
(1996) - A.R. Feinstein
Clinimetrics
- D.L. Sackett
A primer on the precision and accuracy of the clinical examination
JAMA
(1992) Clinical Disagreement: I. How often it occurs and why
CMA Journal
(1980)- I. Hernández Aguado et al.
La cuantificación de la variabilidad en las observaciones clínicas
Med Clin (Barc)
(1990) - R.A. Fisher
Statistical methods for research workers
Measurement error and correlation coefficients
BMJ
Cited by (51)
Risks, phenotypes and comparison between treatments according to guidelines GOLD and GesEPOC in primary care
2022, SemergenLa enfermedad pulmonar obstructiva crónica (EPOC) es una patología infradiagnosticada, con una elevada morbimortalidad. El diagnóstico y el seguimiento se realizan en gran parte en atención primaria (AP). El objetivo de nuestro estudio es clasificar los pacientes EPOC de acuerdo con GOLD 2019 y GesEPOC 2017. Como objetivos secundarios, analizar el tipo de riesgo, describir y comparar el tratamiento pautado con el recomendado por las guías.
Estudio observacional transversal multicéntrico realizado en siete equipos de AP. Se incluyeron 637 pacientes EPOC entre 35 y 85 años.
La edad media fue de 70,3 años, el 84,6% tenían comorbilidades y el 43,5% eran fumadores activos. El FEV1 post-broncodilatador medio fue del 61,92% (DE: 17,42). Predominaron los pacientes con mMRC = 1 (43,8%), 57,8% CAT < 10. Índice BODEx leve (75,7%). Gold A fue mayoritario (47,7%). El fenotipo más frecuente fue el no agudizador (61,1%). El 25% fueron ACO. El 56,2% eran pacientes de bajo riesgo. El 20,6% no tenían prescrito ningún tratamiento, LABA + LAMA + CI (19,6%), LAMA + LABA (16,5%) y LAMA (16,3%). Si comparamos los tratamientos que tienen pautados los pacientes con lo que recomienda la GOLD, obtenemos que el 61% coinciden con una concordancia moderada, mientras que si los comparamos con la GesEPOC, el 53,8% coinciden con concordancia débil. El 73,4% de los tratamientos coinciden entre ambos documentos (concordancia moderada).
Los pacientes EPOC atendidos en AP son de bajo riesgo, leves y no agudizadores. Si comparamos los tratamientos que tienen pautados los pacientes con lo que recomiendan la GOLD y la GesEPOC, encontramos una concordancia moderada y débil, respectivamente.
Chronic obstructive pulmonary disease (COPD) is an underdiagnosed pathology with a high morbidity and mortality. Diagnosis and follow-up are mostly carried out in primary care (PC). The objective of our study is to classify COPD patients according to GOLD 2019 and GesEPOC 2017 guidelines. As secondary objectives, to analyze the type of risk and to describe and compare the prescribed treatment with that recommended by the guidelines.
Multicenter cross-sectional observational study in seven Health Care centers. 637 COPD patients between 35 and 85 years old were included.
The mean age was 70.3 years old, 84.6% had comorbidities and 43.5% were active smokers. The mean post-bronchodilator FEV1 was 61.92% (SD: 17.42). Most are patients with mMRC = 1 (43.8%), 57.8% CAT < 10. Mild BODEx index (75.7%). Gold A was the majority (47.7%). The most frequent phenotype was non-exacerbator (61.1%). 25% were ACOs. 56.2% were low-risk patients. 20.6% had not been prescribed any treatment, LABA + LAMA + CI (19.6%), LAMA + LABA (16.5%) and LAMA (16.3%). If we compare the treatments that the patients have prescribed, with the one is recommended by GOLD, we obtain that 61% coincide with moderate concordance, while if we compare with GesEPOC, 53.8% coincide with weak concordance. 73.4% of the treatments coincide between both documents (moderate agreement).
COPD patients treated in PC are low risk, mild and non-exacerbators. If we compare the treatments that the patients have prescribed, with what is recommended by GOLD and GesEPOC, we find a moderate and weak concordance, respectively.
Concordance between two knee joint mobility measurement systems in healthy young subjects: Cross-sectional study
2022, FisioterapiaLa valoración de los arcos de movilidad articular es uno de los elementos esenciales para determinar el inicio y la progresión en los tratamientos fisioterapéuticos.
Analizar la concordancia del goniómetro universal y el goniómetro digital para medir los movimientos de flexión y extensión de la rodilla de manera bilateral, en sujetos jóvenes sanos.
Estudio descriptivo, analítico de corte transversal, que contó con la participación de 180 jóvenes sanos, seleccionados de manera aleatoria y voluntaria, con una edad media de 21,7 años, a quienes se les midió el movimiento de flexo-extensión de la rodilla de manera pasiva. El coeficiente de correlación intraclase (ICC) de acuerdo absoluto, se utilizó para medir el grado de concordancia entre las valoraciones cuantitativas realizadas. Se presentó anormalidad en la distribución de los datos de las mediciones de flexión-extensión de la rodilla, por lo que, las comparaciones se realizaron con la mediana de los datos.
Se encontró una muy buena concordancia en la utilización del goniómetro universal y el goniómetro digital, para los movimientos de la rodilla: flexión derecha ICC: 0,956, extensión derecha ICC: 0,936, flexión izquierda ICC: 0,933, y para la extensión izquierda ICC: 0,953.
El goniómetro universal y el goniómetro digital obtuvieron una muy buena correlación en la medición de la flexión y extensión de la rodilla.
The assessment of joint mobility arches is one of the essential elements to determine the onset and progression in physiotherapeutic treatments.
To analyze the concordance of the universal goniometer and the digital goniometer to measure the movements of flexion and extension of the knee bilaterally, in healthy young subjects.
A descriptive, analytical cross-sectional study involved 180 healthy young people, randomly selected and voluntarily, with a mean age of 21.7 years, who were measured in the knee flexo-extension movement passively. The intraclass correlation coefficient (ICC) according to absolute, was used to measure the degree of agreement between the quantitative assessments made. There was an abnormality in the distribution of data from knee flexion–extension measurements, so comparisons were made with the median of the data.
A very good agreement was found in the use of the universal goniometer and the digital goniometer, for knee movements: right flexion ICC 0.956, right extension ICC 0.936, left flexion ICC 0.933, and for left extension ICC 0.953.
The universal goniometer and the digital goniometer obtained a very good correlation in the measurement of knee flexion and extension.
La fibrilación auricular es la arritmia más frecuente en la práctica clínica y conlleva importantes implicaciones pronósticas. Comprobar la validez y la fiabilidad de la toma del pulso arterial (TPA) de los profesionales de atención primaria en la detección de fibrilación auricular y otros trastornos del ritmo en pacientes mayores de 65 años ha sido el objeto de este estudio.
Estudio observacional descriptivo, multicéntrico, de validación de una prueba diagnóstica, anidado en un ensayo clínico controlado. Emplazamiento: 39 centros de salud del Sistema Nacional de Salud. Participaron 318 médicos y enfermeros en el análisis de la validez y 166 en el de la fiabilidad. Se convocó a los profesionales a una reunión donde se tomaron el pulso arterial y se les entregó 4 ECG para que los interpretaran. Los participantes realizaron la TPA, seguido de un ECG en 864 pacientes para confirmar el ritmo cardiaco. Para valorar la validez criterial se estimaron la sensibilidad, especificidad y valores predictivos, y para comprobar la reproducibilidad, el índice de concordancia simple.
La sensibilidad de la TPA para la detección de fibrilación auricular fue del 99,4% (IC 95%: 97,9-100,0), y la especificidad del 30,7% (IC 95%: 26,1-35,3), el valor predictivo positivo fue 36,6% (IC 95%: 32,0-41,2) y el valor predictivo negativo 99,2% (IC 95%: 97,3-100,0). La concordancia simple entre los investigadores y el cardiólogo para el diagnóstico electrocardiográfico de fibrilación auricular osciló entre el 84,9 y el 91,6%.
La TPA tiene una alta sensibilidad pero una baja especificidad para detectar una fibrilación auricular. Es una prueba fiable, por lo que resulta de utilidad para el cribado oportunista de arritmias en pacientes mayores de 65 años que acuden a atención primaria.
Atrial fibrillation (AF) is the most frequent arrhythmia in clinical practice and has important prognostic implications. The objective of this study was to demonstrate the validity and the reliability of taking the arterial pulse (TAP) in patients over 65 years for detecting in AF and other rhythm disorders.
A descriptive, observational, multicentre study to validate a diagnostic test within in a controlled clinical trial. Setting: 39 Primary Care Centres in the Spanish National Health Service. A total of 318 physicians and nurses took part in the analysis of validity, and 166 of them took part in the analysis of reliability. The professionals were previously called to a meeting in which they took the arterial pulses, and were given 4 ECGs to interpret. The participants TAP of 864 patients followed by an ECG to confirm the cardiac rhythm. Sensitivity, specificity and predictive values were estimated to assess the criterial validity and the simple concordance index to check reproducibility.
The sensitivity of pulse measurement for detecting AF detection was 99.4% (95% CI: 97.9-100.0), with a specificity of 30.7% (95% CI: 26.1-35.3), a positive predictive value of 36.6% (95% CI 32.0-41.2), and negative predictive value of 99.2% (97.3-100.0). The simple concordance between the researchers and the cardiologist for the ECG diagnosis of AF ranged between 84.9% and 91.6%.
The TAP has a high sensitivity but a low specificity to detect AF. It is a reliable test for the opportunistic screening of arrhythmias in patients aged over 65 years.
Variability between experts in defining the edge and area of the optic nerve head
2013, Archivos de la Sociedad Espanola de OftalmologiaEstimar el grado de error en la determinación subjetiva del límite papilar.
1) Fueron evaluadas 169 imágenes papilares por cinco expertos para delimitar los bordes papilares en 8 posiciones (cada 45°). 2) Las áreas estimadas en 26 casos se compararon con las medidas mediante tomógrafo de coherencia óptica (OCT-Cirrus).
1) La variación media del radio papilar estimado fue de ± 5,2%, sin diferencias significativas entre sectores. Entre los cinco expertos existieron diferencias específicas (p < 0,001) de cada uno respecto a los restantes. 2) El área papilar medida por OCT-Cirrus fue de 1,78 mm2 (DE = 0,27). Los resultados de los expertos que informaron de áreas menores estuvieron mejor correlacionados con el área de OCT-Cirrus (r = 0,77-0,88) que los que informaron de áreas mayores (r = 0,61-0,69) (p < 0,05 en casos extremos).
Existen patrones específicos de cada experto para definir los límites papilares que pueden significar variaciones del 20% en la estimación de su área. Aquellos expertos que realizan delimitaciones menores tuvieron una mayor coincidencia con el método objetivo utilizado. Proponemos una herramienta web de autoevaluación y entrenamiento en esta tarea.
Estimation of the error rate in the subjective determination of the optic nerve head edge and area.
1) 169 images of optic nerve disc were evaluated by five experts for the defining of the edges in 8 positions (every 45°). 2) The estimated areas of 26 cases were compared with the measurements of the Cirrus Optical Coherence Tomography (OCT-Cirrus).
1) The mean variation of the estimated radius was ±5.2%, with no significant differences between sectors. Specific differences were found between the 5 experts (P <.001), each one compared with the others. 2) The disc area measured by the OCT-Cirros was 1.78 mm2 (SD =0.27). The results corresponding to the experts who detected smaller areas were better correlated to the area detected by the OCT-Cirrus (r=0.77-0.88) than the results corresponding to larger areas (r =0.61-0.69) (P <.05 in extreme cases).
There are specific patterns in each expert for defining the disc edges and involve 20% variation in the estimation of the optic nerve area. The experts who detected smaller areass have a higher agreement with the objective method used. A web tool is proposed for self-assessment and training in this task.
Validating a classification scheme for medication errors to be used in chemotherapy
2011, Farmacia HospitalariaValidar una hoja de clasificación de errores de medicación asociados a medicamentos antineoplásicos.
Estudio prospectivo. Se diseñó una hoja de recogida de datos sobre la base de la clasificación de la American Society of Health-System Pharmacists. Dos observadores revisaron las líneas de tratamiento de las prescripciones de quimioterapia del Servicio de Hematología durante un mes y clasificaron los errores detectados. Se analizó la concordancia interobservador mediante el test del índice kappa. Se revisaron las categorías de error en las que se obtuvo una concordancia moderada o inferior y se valoró si era necesaria su modificación.
Se analizaron un total de 23 categorías de error y se revisaron 162 líneas de tratamiento. Únicamente una de las categorías fue valorable en función de su prevalencia de error, la de prescripción incompleta o ambigua (índice kappa=0,458=concordancia moderada). Se analizaron las causas y se desglosaron subapartados dentro de esta categoría.
Nuestros resultados evidenciaron la necesidad de la revisión de la clasificación de errores. Es necesario disponer de herramientas validadas para avanzar en la caracterización de este tipo de errores de medicación.
To validate a classification sheet for medication errors associated with antineoplastic medication.
Prospective study. A data sheet was designed based on ASHP's classification. Two observers reviewed the treatment prescribed for chemotherapy from the Haematology Department during a month and they classified the errors detected. The interobserver concordance was analysed using the kappa index test. The error categories with a moderate or lower concordance were reviewed, and the need to modify them was evaluated.
A total of 23 error categories were analysed and 162 lines of treatment were reviewed. Only one of the categories was assessable in accordance with its error prevalence, which was the category for incomplete or ambiguous prescriptions (kappa index=0.458=moderate concordance). The causes were analysed and subsections within this category itemised.
Our results proved the need to review error classification. Validated tools need to be made available so as to make progress in characterising this type of medication error.
Store-and-forward teledermatology: Assessment of validity in a series of 2000 observations
2011, Actas Dermo-SifiliograficasObjetivo: evaluar la validez de la teledermatología diferida y su aplicación como herramienta de apoyo a Atención Primaria y servicios de Urgencias hospitalarias (consultas presenciales evitadas). Comparar validez y manejo del paciente (presencial vs teledermatología) según el origen del paciente y el grupo diagnóstico.
se compararon los diagnósticos emitidos sobre 100 pacientes por 20 dermatólogos observadores con el emitido en la consulta presencial (patrón oro) y se comparó el manejo entre los grupos de pacientes.
porcentaje de acuerdo completo (AC): 69,05 (IC 95%: 66,9-71,0). Porcentaje de acuerdo agregado (AG): 87,80 (IC 95%: 86,1-89,0). Pacientes manejados de manera presencial: 60% (58-61). Pacientes manejados por teledermatología: 40% (38-41). Los pacientes provenientes de Atención Primaria y el grupo de patología infecciosa presentó mayor validez diagnóstica (76,1 AC y 91,8 AG; p < 0,001 para Atención Primaria y 73,3 AC y 91,3 AG; p < 0,001 para patología infecciosa) y fueron manejados vía teledermatológica (42%; p = 0,003 para Atención Primaria y 52%; p < 0,001 para patología infecciosa) en mayor medida que los provenientes de Urgencias (61,8 AC y 83,4 AG; 38% manejo teledermatológico) y aquéllos con patología inflamatoria (70,8 AC y 86,4 AG; 40% manejo teledermatológico) o tumoral (63,0 AC y 87,2 AG; 28% manejo teledermatológico).
la teledermatología diferida presenta una elevada validez diagnóstica, especialmente en casos remitidos de Atención Primaria y para patología infecciosa, y es útil en el manejo y diagnóstico a distancia de pacientes, ya que evitaría el 40% de las consultas presenciales.
The aim of this study was to assess the validity of store-and-forward teledermatology as a tool to support physicians in primary care and hospital emergency services and reduce the requirement for face-to-face appointments. Diagnostic validity and the approach chosen for patient management (face-to-face vs teledermatology) were compared according to patient origin and diagnostic group.
Digital images from 100 patients were assessed by 20 different dermatologists and the diagnoses offered were compared with those provided in face-to-face appointments (gold standard). The proposed management of the different groups of patients was also compared.
The percentage complete agreement was 69.05% (95% confidence interval [CI], 66.9%–71.0%). The aggregate agreement was 87.80% (95% CI, 86.1%–89.0%). When questioned about appropriate management of the patients, observers elected face-to-face consultation in 60% of patients (95% CI, 58%–61%) and teledermatology in 40% (95% CI, 38%–41%). Diagnostic validity was higher in patients from primary care (76.1% complete agreement and 91.8% aggregate agreement) than those from hospital emergency services (61.8% complete agreement, 83.4% aggregate agreement) (p < 0.001) and teledermatology was also chosen more often in patients from primary care compared with those from emergency services (42% vs 38%; p = 0.003). In terms of diagnostic group, higher validity was observed for patients with infectious diseases (73.3% complete agreement and 91.3% aggregate agreement) compared to those with inflammatory disease (70.8% complete agreement and 86.4% aggregate agreement) or tumors (63.0% complete agreement and 87.2% aggregate agreement) (p <0.001). Teledermatology was also chosen more often in patients with infectious diseases (52%) than in those with inflammatory disease (40%) or tumors (28%) (p <0.001).
Store-and-forward teledermatology has a high level of diagnostic validity, particularly in those cases referred from primary care and in infectious diseases. It can be considered useful for the diagnosis and management of patients at a distance and would reduce the requirement for face-to-face consultation by 40%.
Este artículo ha sido financiado, en parte, con las ayudas BISC 96/4782 y FIS 96/0421