본 연구는 머신러닝 중 하나인 캣부스트(catboost) 알고리즘을 통해 비침습적 방법으로 대사증후군을 예측하고자 시도되었다. 예측모델의 학습을 위한 자료는 국민건강영양조사 제 8기(2019-2021) 자료 중 대사증후군이 없는 그룹 11.542명, 대사증후군이 있는 4.008명으로 총 11,545명이며, 투입변수는 비침습적 요인들로만 구성된 14개였다. 본 연구의 모델구축 및 성능평가를 위한 모든 코드는 Python 3.9.7로 작성되었으며, 통계 및 모델 구축을 위해서 SciPy 1.614, SHAP(Shapley Additive exPlanations), Scikit-learn 1.2.2 패키지가 사용되었다. 연구결과 대사증후군 예측에 가장 중요한 요인은 수면시간(1.354), 체질량 지수(BMI: body mass index, 이하 BMI)(1.153), 성별(1.118)로 확인 되었다. 또한 연령(0.658), 현재 흡연(0.229), 1년간 체중변화 (0.199), 만성질환 가족력(0.176), 나쁜 주관적 건강인지(0.158), 1개월에 1잔 이상의 음주(0.132), 만성질환(0.092), 높은 스트레스 인지(0.073), 유산소 신체활동 실천 없음(0.063), 활동제한(0.060), 암(0.016) 순으로 나타났다. 예측모델의 전반적 성능(AUC)은 0.874 (95% CI, 0.874-0.874)로 확인되었다. 본 연구에서 구축한 모델을 활용하여 간편한 질문을 통해 대사증후군을 빠르고 정확하게 식별할 수 있으며, 이는 개인 및 집단 수준에서 예방프로그램을 개발하는 데 중요한 기초자료로 활용될 수 있을 것으로 기대한다.
This study attempted to predict the metabolic syndrome in a non-invasive manner using the CatBoost algorithm, a type of machine learning. The dataset for training the prediction model comprised 11,545 individuals, including 11,542 without metabolic syndrome and 4,008 with metabolic syndrome, sourced from the 8th Korea National Health and Nutrition Examination Survey (KNHANES, 2019-2021). The fourteen input variables consisted solely of non-invasive factors. All the code for the model construction and performance evaluation was written in Python 3.9.7, utilizing SciPy 1.614, SHAP (Shapley Additive exPlanations), and Scikit-learn 1.2.2 packages for statistics and model building. The study found that the most important factors in predicting metabolic syndrome were sleep duration (1.354), body mass index (BMI, 1.153), and gender (1.118). Additionally, age, smoking, weight change over the past year, family history of chronic disease, poor perceived health status, alcohol consumption of more than one drink per month, and chronic diseases followed in order of importance. The overall performance of the prediction model (area under the curve [AUC]) was confirmed to be 0.874 (95% CI, 0.874-0.874). The model constructed in this study could provide foundational data for the early identification of metabolic syndrome in individuals and populations through simple questions, as well as assist in the development of prevention programs for diseases related to the metabolic syndrome.