Детальная информация

Название: Анализ исходного кода для поиска и оптимизации гиперпараметров моделей машинного обучения: выпускная квалификационная работа бакалавра: направление 01.03.02 «Прикладная математика и информатика» ; образовательная программа 01.03.02_03 «Математическое и информационное обеспечение экономической деятельности»
Авторы: Аниськов Никита Сергеевич
Научный руководитель: Беляев Сергей Юрьевич
Другие авторы: Арефьева Людмила Анатольевна; Брыксин Тимофей Александрович
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт прикладной математики и механики
Выходные сведения: Санкт-Петербург, 2021
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: машинное обучение; мета-обучение; автоматическое машинное обучение; машинное обучение на исходном коде; machine learning; meta-learning; automated machine learning; machine learning on source code
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 01.03.02
Группа специальностей ФГОС: 010000 - Математика и механика
Ссылки: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-2245
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\13803

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

В работе решается задача мета-обучения на исходном коде для оптимизации гиперпараметров моделей машинного обучения; предложен способ построения мета-алгоритма, способного извлекать мета­информацию о задаче машинного обу­чения из исходного кода ее решения и с помощью извлеченной мета­информации рекомендовать гиперпараметры для моделей машинного обучения; разработана и реализована система тестирования для предложенного мета-алгоритма. Задачи, решённые в рамках исследования: 1. Собраны данные с платформы Kaggle. 2. Проведен первичный анализ и предобработка данных, собранных с Kaggle, и имевшихся данных с GitHub. 3. Разработана и реализована система тестирования для мета-алгоритмов рекомендации гиперпараметров, использующих исходный код как источник информации о задаче машинного обучения. 4. Предложена архитектура мета-алгоритма рекомендации гиперпараметров, использующая построение векторных представлений кода с помощью CodeBERT и рекомендацию с помощью модели случайного леса. 5. Оценена предложенная нами архитектура мета-алгоритма с помощью си­стемы тестирования В данной работе представлен прототип нового подхода к решению задачи мета-обучения — использование мета-алгоритмом информации об исходном ко­ де, решающем задачу машинного обучения. Наше решение позволяет при заданных выборке данных задачи машинного обучения и произвольной выборке кодов на языке Python, решающих эту задачу, оценивать любые мета-алгоритмы рекомендации гиперпараметров, использующие исходный код как источник мета-информации. Главным результатом проведенных экспериментов является демонстрация разработанной и реализованной нами системы тестирования мета-алгоритмов, предсказывающих гиперпараметры моделей машинного обучения по исходному коду. Система тестирования позволяет сравнивать качество различных стратегий выбора гиперпараметров при заданных наборе данных задачи машинного обучения и множестве исходных кодов, решающих её.

The subject of this work is ”Analysis of source code for search and optimization of hyperparameters of machine learning models”. This study solves the problem of meta­learning on the source code to optimize the hyperparameters of machine learning models; the proposed method for constructing a meta­algorithm that can extract meta ­information about a machine learning problem from the source code of its solution and use the extracted meta­information to recommend hyperparameters for machine learning models; a testing system for the proposed meta­ algorithm is developed and implemented. During the elaboration of the problem, the following tasks were completed: 1. Collecting a dataset from Kaggle platform. 2. The initial analysis and preprocessing of the data collected from Kaggle and the available data from GitHub was carried out. 3. Developing and implementing a testing system for meta­algorithms and hyperparameters using the source code as a source of information about a machine learning task. 4. Thearchitectureofthehyperparameterrecommendationmeta­algorithmisproposed, which uses the construction of vector representations of the code using CodeBERT and the recommendation using the random forest model. 5. The proposed architecture of the meta­algorithm is evaluated using a testing system. This study presents a prototype of a new approach to solving the problem of meta­ learning — the use of meta­algorithm information about the source code that solves the problem of machine learning. Our solution allows us to evaluate any meta­algorithms for hyperparameter recommendations that use the source code as a source of meta­ information for a given data sample of a machine learning problem and an arbitrary selection of Python codes that solve this problem. The main result of the experiments is a demonstration of the developed and implemented system for testing meta­algorithms that predict the hyperparameters of machine learning models from the source code. The testing system allows you to compare the quality of various hyperparameter selection strategies for a given data set of a machine learning problem and a set of source codes that solve it.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 0
За последние 30 дней: 0
Подробная статистика