Статья поступила 3 сентября 2020 г.
Итоги Всероссийской сельскохозяйственной переписи позволяют получать достоверную информацию о произошедших структурных сдвигах в сельском хозяйстве, об изменениях ресурсного потенциала, о роли каждой категории сельхозпроизводителей в производстве. Ряд показателей переписи невозможно получить из текущей статистики, что делает необходимым комплексный анализ ее итогов для получения достоверной информации об уровне сельскохозяйственного производства страны. Использование обезличенных первичных данных при этом дает возможность применять современные методы машинного обучения для возможности использования разработанных алгоритмов к новым организациям для предсказания их основных характеристик. Разработанная методика может в перспективе сократить число показателей ВСХП для снижения затрат на сбор данных.
Общая характеристика условий сельскохозяйственной деятельности была проанализирована по данным ВСХП 2006 и 2016 гг. по сельскохозяйственным организациям, так как на их долю приходится 83,5 % сельскохозяйственных угодий, 69,0 % всех посевных площадей страны и 44,5 % всего поголовья КРС [1].
Инструментами анализа послужили методы классификации, такие как наивный классификатор Байеса, алгоритм k-ближайших соседей, метод опорных векторов, логистическая регрессия и случайный лес.
Наивные байесовские классификаторы являются вероятностными классификаторами и исходят из теоремы Байеса, которая рассматривает функции как независимые. Байесовский классификатор оценивает параметры, рассматривая каждый признак отдельно, и по каждому признаку собирает простые статистики классов. Он присваивает метки классов наблюдениям, представленным векторами признаков. По сути, байесовский классификатор представляет собой вероятностную модель [2].
Метод k-ближайших соседей может рассматриваться как один из самых простых методов машинного обучения. Он относит объекты к классу, которому принадлежит большинство из k его ближайших соседей в многомерном пространстве признаков.