캣부스트 모델을 이용한 대사증후군 예측

유보현; 최아라; 김태훈

doi:10.5762/KAIS.2024.25.4.324

주제분류

...

저널정보

한국산학기술학회
한국산학기술학회 논문지 학술저널
한국산학기술학회논문지 제25권 제4호
2024.4 324 - 332 (9page)
DOI : 10.5762/KAIS.2024.25.4.324

저자정보

유보현 (빛고을 전남대학교병원)
최아라 (전남대학교병원)
김태훈 (전라남도 공공보건의료지원단)

이용수
내서재: 0

내서재에 추가
되었습니다. 내서재에서
삭제되었습니다.

초록·키워드

오류제보하기

본 연구는 머신러닝 중 하나인 캣부스트(catboost) 알고리즘을 통해 비침습적 방법으로 대사증후군을 예측하고자 시도되었다. 예측모델의 학습을 위한 자료는 국민건강영양조사 제 8기(2019-2021) 자료 중 대사증후군이 없는 그룹 11.542명, 대사증후군이 있는 4.008명으로 총 11,545명이며, 투입변수는 비침습적 요인들로만 구성된 14개였다. 본 연구의 모델구축 및 성능평가를 위한 모든 코드는 Python 3.9.7로 작성되었으며, 통계 및 모델 구축을 위해서 SciPy 1.614, SHAP(Shapley Additive exPlanations), Scikit-learn 1.2.2 패키지가 사용되었다. 연구결과 대사증후군 예측에 가장 중요한 요인은 수면시간(1.354), 체질량 지수(BMI: body mass index, 이하 BMI)(1.153), 성별(1.118)로 확인 되었다. 또한 연령(0.658), 현재 흡연(0.229), 1년간 체중변화 (0.199), 만성질환 가족력(0.176), 나쁜 주관적 건강인지(0.158), 1개월에 1잔 이상의 음주(0.132), 만성질환(0.092), 높은 스트레스 인지(0.073), 유산소 신체활동 실천 없음(0.063), 활동제한(0.060), 암(0.016) 순으로 나타났다. 예측모델의 전반적 성능(AUC)은 0.874 (95% CI, 0.874-0.874)로 확인되었다. 본 연구에서 구축한 모델을 활용하여 간편한 질문을 통해 대사증후군을 빠르고 정확하게 식별할 수 있으며, 이는 개인 및 집단 수준에서 예방프로그램을 개발하는 데 중요한 기초자료로 활용될 수 있을 것으로 기대한다.

This study attempted to predict the metabolic syndrome in a non-invasive manner using the CatBoost algorithm, a type of machine learning. The dataset for training the prediction model comprised 11,545 individuals, including 11,542 without metabolic syndrome and 4,008 with metabolic syndrome, sourced from the 8th Korea National Health and Nutrition Examination Survey (KNHANES, 2019-2021). The fourteen input variables consisted solely of non-invasive factors. All the code for the model construction and performance evaluation was written in Python 3.9.7, utilizing SciPy 1.614, SHAP (Shapley Additive exPlanations), and Scikit-learn 1.2.2 packages for statistics and model building. The study found that the most important factors in predicting metabolic syndrome were sleep duration (1.354), body mass index (BMI, 1.153), and gender (1.118). Additionally, age, smoking, weight change over the past year, family history of chronic disease, poor perceived health status, alcohol consumption of more than one drink per month, and chronic diseases followed in order of importance. The overall performance of the prediction model (area under the curve [AUC]) was confirmed to be 0.874 (95% CI, 0.874-0.874). The model constructed in this study could provide foundational data for the early identification of metabolic syndrome in individuals and populations through simple questions, as well as assist in the development of prevention programs for diseases related to the metabolic syndrome.

#Machine Learning #Catboost #Metabolic Syndrome #Prediction Model #KNHANES

참고문헌 (0)

참고문헌 신청

참고문헌이 DBpia에서 서비스 중이라면, [참고문헌 신청]을 통해 등록해보세요

최근 본 자료

전체보기

구분	그룹	데이터 항목
AI 학습용 데이터	원문	원문 PDF 파일
AI 학습용 데이터	원문 + 메타 (기본/상세)	원문 PDF 파일 및 서지정보 CSV
대량 구매용 데이터	B2B 구독 방식	특정 자료 한정으로 원문 접근 권한 부여
대량 구매용 데이터	URL 전달 방식	바로 PDF 뷰어를 열람할 수 있는 URL 제공

구분	그룹	데이터 항목
AI 학습용 데이터	기본 메타	발행기관명, 간행물명, 권호명, 권(vol), 호(issue), 통권, 발행연도, 발행월, 논문명, 저자명, 시작페이지, 종료페이지, 전체페이지, 상세페이지URL
상세 메타 데이터	발행기관 메타	발행기관 이명, 영문명, 창립연도, 홈페이지URL, 발행기관 소개
	간행물 메타	부제목, 간행물 유형, ISSN, ISBN, 최초발행연도, 폐간연도, 간행빈도, 발행주기, 등재사항, 이용수, 피인용수, 권호수, 논문수, 표지이미지
	논문 메타	작성 언어, 부제목, 대등제목, 목차, 키워드, 초록, 이미지, 참고문헌, 이용수, 피인용수, 논문활용도, DBpia통합주제분류, KDC분류, DDC분류, 한국연구재단분류, UCI, DOI
	저자 메타	소속기관, 소속부서, 직급, 연구분야, 연구키워드, 이용수, 피인용수, 저자 논문활용도

구분	그룹	데이터 항목
※ 결합형/맞춤형 메타 데이터는 신청 내용에 따라 다양하게 제공 가능
이용순위 정보	주제분야별 많이 이용된 논문	“인문학”에서 많이 이용된 논문 TOP100
	이용기관별 많이 이용된 논문	“중고등학교”에서 많이 이용된 논문 TOP100
	세부기관별 많이 이용된 논문	“서울대학교”에서 많이 이용된 논문 TOP100
	키워드별 많이 이용된 논문	“Chat GPT”에서 많이 이용된 논문 TOP100
키워드 정보	많이 이용된 키워드	특정기간/분야/저널 내 많이 이용된 키워드
	많이 발행된 키워드	특정기간/분야/저널 내 많이 발행된 키워드
	많이 검색된 키워드	특정기간/분야/저널 내 많이 검색된 키워드
	연구 트렌드 키워드	특정 키워드 연관 연구동향 분석 데이터 키워드

저널정보

저자정보

초록·키워드

목차

참고문헌 (0)

최근 본 자료

댓글(0)