Применение модифицированного алгоритма LSH для кластеризации внешнего окружения веб-пространства университетов

Интеллектуальные системы и технологии
Авторы:
Аннотация:

Проведен кластерный анализ внешних ресурсов сайтов крупных университетов. В качестве исследуемых объектов выбраны сайты университетов России, США и Великобритании, занимающие в своих регионах ведущие позиции в вебометрическом рейтинге. Цель работы – в выявлении для каждого сайта университета групп внешних веб-ресурсов с одинаковым родом деятельности. Проведен анализ найденных групп: определена степень влияния количества и размеров этих групп на вебометрический рейтинг сайтов университетов. Разработан алгоритм кластеризации, основанный на вероятностном методе понижения размерности многомерных данных (Locality-Sensitive Hashing – LSH). Поставлен эксперимент, в котором на тестовых данных показано, что алгоритм позволяет с высокой скоростью и допустимой точностью проводить кластеризацию большого объема данных. Приведены основные результаты исследования.