МОДИФИЦИРОВАННЫЙ МЕТОД РЕШЕНИЯ ЗАДАЧИ LU-РАЗЛОЖЕНИЯ НА РВС

Левин И.И.; Пелипец А.В.; Сорокин Д.А.; Дудников Е.А.

A MODIFIED METHOD FOR RCS IMPLEMENTATION OF LU-DECOMPOSITION

Levin I.I.,

Doctor of Sciences, professor

Supercomputers and Neurocomputers Scientific Research Center, Taganrog, Russia

Pelipets A.V.,

Supercomputers and Neurocomputers Scientific Research Center, Taganrog, Russia

Sorokin D.A.,

Supercomputers and Neurocomputers Scientific Research Center, Taganrog, Russia

Dudnikov E.A.

Supercomputers and Neurocomputers Scientific Research Center, Taganrog, Russia

МОДИФИЦИРОВАННЫЙ МЕТОД РЕШЕНИЯ ЗАДАЧИ LU-РАЗЛОЖЕНИЯ НА РВС

Левин И.И.

доктор технических наук, профессор

Научно-исследовательский центр супер-ЭВМ и нейрокомпьютеров, Таганрог, Россия

Пелипец А.В. канд. техн. наук

Научно-исследовательский центр супер-ЭВМ и нейрокомпьютеров, Таганрог, Россия

Сорокин Д.А. канд. техн. наук

Научно-исследовательский центр супер-ЭВМ и нейрокомпьютеров, Таганрог, Россия

Дудников Е.А.

Научно-исследовательский центр супер-ЭВМ и нейрокомпьютеров, Таганрог, Россия

Abstract

The demand for high-performance computer systems, capable to solve scientific and practical problems of linear algebra during reasonable time and with specified accuracy, is annually increasing. However, the most widespread design technologies of such systems do not provide efficient performance increasing, and frequently need to use new hardware components.

At the same time, there is an alternative. We can use reconfigurable computer systems (RCS) and a paradigm of structural-procedural organization of calculations. According to this paradigm, a method of parallelization by iterations is developed for solution of linear algebra tasks. Owing to this method, it is possible to ramp the RCS performance with linear extension of hardware resource without use of new hardware components. Here, no continuous data exchange among computational nodes and external memory is needed during task solution.

However, our research proved that the existing method of parallelization by iterations has some shortcomings which lead to inefficient use of the available RCS hardware resource.

The paper deals with description of a modified method of parallelization by iterations for solution of linear algebra tasks on RCS. Owing to this method, it is possible to increase the performance and specific performance of the computer system. We have obtained the solutions, which provide increasing of the RCS performance for LU-decomposition (the main task of LinPack Benchmark) by 36%. Here, the hardware costs were decreased by 50%.

Аннотация

Ежегодно увеличивается потребность в высокопроизводительных вычислительных системах, способных решать научные и практические задачи линейной алгебры за приемлемое время с заданной точностью. Однако наиболее распространённые технологии создания таких систем не только не позволяют оперативно наращивать вычислительные мощности, но и зачастую требуют перехода на новую элементную базу.

В тоже время существует альтернатива, которая основана на применении реконфигурируемых вычислительных систем (РВС) и парадигмы структурно-процедурной организации вычислений. В рамках данной парадигмы для решения задач линейной алгебры разработан метод распараллеливания по итерациям, позволяющий линейно наращивать производительность РВС при линейном увеличении аппаратного ресурса без перехода на новую элементную базу. При этом в процессе решения отсутствует необходимость постоянного обмена данными между вычислительными узлами и внешней памятью.

Однако проведенные авторами данной статьи исследования показали, что существующий метод распараллеливания по итерациям имеет недостатки, которые приводят к неэффективному использованию имеющегося аппаратного ресурса РВС.

Данная работа посвящена описанию модифицированного метода распараллеливания по итерациям для решения задач линейной алгебры на РВС, благодаря которому обеспечивается как увеличение произ-

водительности, так и увеличение удельной производительности вычислительной системы. В ходе исследований авторами получены решения, которые обеспечили рост производительности РВС на задаче LU-разложения (основная задача теста LinPack Benchmark) на 36%, при этом аппаратные затраты были снижены на 50%.

Keywords: Reconfigurable computer system, LU-decomposition, method of parallelization by iterations Ключевые слова: Реконфигурируемые вычислительные системы, LU-разложение, метод распараллеливания по итерациям

С каждым годом в задачах науки и техники возрастает запрос на выполнение точных вычислений, основная доля которых относится к линейной алгебре. Для решения таких задач создаются специализированные высокопроизводительные вычислительные комплексы - суперкомпьютеры. Эти вычислительные системы, имеют возможность наращивать производительность за счёт увеличения тактовых частот или путём применения многоядерных и многопоточных вычислений. Однако проблемы межпроцессорного обмена при этом не решаются, поэтому для обеспечения линейного роста производительности с выходом более совершенных процессоров требуется полная перестройка системы.

Принципиально иной подход к решению задач линейной алгебры возможен на реконфигурируе-мых вычислительных системах (РВС) на базе программируемых логических интегральных схем [1]. В основе принципов решения этих и других сложных задач на РВС лежит парадигма структурно-процедурной организации вычислений, которая обеспечивает адаптацию к структуре решаемой задачи и практически полностью нивелирует потери при межпроцессорном обмене.

Sk-i1<ak-i1J>

plui

PLU2

Sk+l<ak+i>

Группой учёных был разработан метод синтеза параллельно-конвейерных программ решения задачи линейной алгебры на РВС [2], в отличие от работ, где реконфигурируемые системы используются лишь как вспомогательные [3]. Поскольку основным способом оценки производительности высокопроизводительных вычислительных систем при решении задач линейной алгебры является тест Linpack Benchmark, по результатам которого формируется TOP-500 суперкомпьютеров, то апробация разработанного метода выполнялась на задаче LU-разложения матрицы.

Данный метод позволяет реализовать LU-разложение матрицы любой размерности в темпе поступления данных без использования внешней памяти для хранения промежуточных значений.

На каждой ступени вычислительного конвейера, реализующего информационный граф задачи LU-разложения, выполняется одна итерация алгоритма (рис.1). При этом вычислительная структура ступени полностью соответствует базовому подграфу задачи.

S*+2<ak+2lj>

n-l

-KP 3

>

Рис. 1. Вычислительный конвейер, реализующий LU-разложение матрицы

Во время итерации к на вход подграфа рик приходит вектор &-1, состоящий из элементов ак-1,у строки I, которые были сформированы на итерации к-1. Выходной вектор подграфа представляет собой элементы акц строки /, вычисленные во время текущей итерации к. Использование данной структуры при наличии достаточного ресурса для размещения п-1 базовых подграфов позволяет обрабатывать матрицы любой размерности п без использования внешней памяти для хранения промежуточных значений. В противном случае решить задачу можно путём редукции информационного графа по числу подграфов в соответствии с аппаратным ресурсом с подключением блоков памяти [4].

Вычислительная структура базового подграфа задачи Ш-разложения рассматриваемого метода представлена на рис. 2. Проведённые исследования показали, что использование данной вычислительной структуры приводит к избыточным аппаратным затратам и снижению эффективности РВС. Это связано с тем, что рассматриваемая структура содержит в себе все операции, необходимые для выполнения алгоритма. В то же время самая ресурсоёмкая в этой вычислительной структуре операция деления занимает около 50% аппаратных затрат, при этом работает менее 1% от общего времени решения задачи.

Sc-1l<ak-1ll>

Sct<c?>

Рис. 2. Базовый подграф LU-разложения матрицы Linpack Benchmark

Для решения данной проблемы было предложено модифицировать информационный граф задачи путём декомпозиции операции деления из базового подграфа задачи и выделения в отдельную подзадачу нормирования ведущих столбцов для всей вычислительной структуры с организацией коммутационных каналов для каждого конвейера. Согласно алгоритму задачи, операция деления выполняется над данными первого столбца (строки)

Бк-1<ак-1>

матрицы, поступление которых на вход каждого подграфа разнесено во времени, что исключает возникновение коллизий при общем доступе к единственному делителю. В результате изменения числа функциональных устройств и внешних информационных каналов базового подграфа можно получить структуру полного информационного графа задачи ЬП-разложения, представленную на рис. 3

s-W'j

\А ^ к к „ X i<x ij,y ij>

Рис. 3. Модифицированный вычислительный конвейер, реализующий ЬП-разложение

Вычислительная структура модифицированного базового подграфа задачи ЬП-разложения преобразуется к виду, представленному на рис. 4

>

Рис. 4. Модифицированный базовый подграф задачи ЬП-разложения

В данной структуре результаты деления поступают в виде вектора Бк1 , который содержит элементы = ак,/ак,к для всех реализованных базовых подграфов. Результаты, принадлежащие данному подграфу, используются в его вычислениях, а остальные элементы т^ выдаются транзитом в следующий подграф в виде выходного вектора 2к. Также, добавились информационные связи для

транзита операндов делителя (входной и выходной векторы и Хк1).

В ходе выполнения работы был проведён анализ основных аппаратных затрат, занимаемых исходным базовым подграфом и базовым подграфом после выполненных модификаций. Результаты данного анализа отображены в таблице 1.

Таблица 1

Оценка аппаратных затрат на реализацию базовых подграфов и делителя

FF LUT DSP BRAM

Исходный базовый подграф с делителем 12901 6289 6 16

Модифицированный базовый подграф без делителя 6598 3106 6 16

Вычислительные структуры исходного и мо- реализованы на НРК «Терциус» (рисунок 5), техни-дифицированного методов LU-разложения были ческие характеристики которого представлены в

таблице 2.

Рис. 5. Настольныйреконфигурируемый компьютер «Терциус»

Таблица 2

Технические характеристики настольного реконфигурируемого компьютера «Терциус»

Число ПЛИС ЮШех ШИ^сак ХСКШ95,шт 4

Объем оперативной памяти, Гб 8

Производительность вычислительного поля, Тфлопс 2,5

Потребляемая мощность, Вт 500

Габаритные размеры, мм 428x310x86

Аппаратные затраты на реализацию задачи методами на НРК «Терциус», а также соответству-LU-разложения исходным и модифицированным ющее им количество вычислительных конвейеров

представлены в таблице 3.

Таблица 3

Занимаемые ресурсы задачи «LU-разложение» в НРК «Терциус»_

Организация базового под-графа\конвейера Число конвейеров Частота, MHz FF LUT DSP BRAM

Делитель в каждой ступени 74 500 954674 88 % 465386 86 % 1184 70 % 444 57 %

Общий делитель для всех ступеней 103 500 694527 64 % 307424 57 % 1660.5 98 % 618 80 %

Экспериментальные результаты решения задачи LU-разложения матрицы размерностью n= 104 с числами стандарта FP64 IEEE754, полученные на вычислительном блоке РВС «Терциус» на частоте работы 500 MHz, представлены в таблице

4. Для сравнения в таблице также приведена производительность четырёхъядерного CPU Intel Core i5-7500 3,40 GHz, RAM 32 Гб в задаче LU-разложения матрицы той же размерности.

Таблица 4

Результаты вычислительных экспериментов решения задачи LU-разложения

Частота, MHz Количество ступеней конвейера в ПЛИС Производительность Производительность НРК «Терциус» (4 ПЛИС)

Модифицированный метод(ПЛИС) 500 103 82 Гфлопс 227 Гфлопс

Исходный метод (ПЛИС) 500 74 60 Гфлопс 315 Гфлопс

Intel Core i5-7500 3800 - 71 Гфлопс -

Выводы

Авторами статьи был модифицирован метод синтеза параллельно-конвейерных программ решения задач линейной алгебры на РВС. Модифицированный метод позволил существенно оптимизировать аппаратные затраты РВС на реализацию задачи LU-разложения. Данная модификация позволила разместить на том же самом аппаратном ресурсе большее количество ступеней конвейера, что привело к существенному росту производительности как отдельного кристалла ПЛИС, так и вычислительного блока «Терциус». При этом проведенный анализ показал, что в силу отсутствия интенсивных обменов с внешней памятью при выполнении всех итераций алгоритма, возможно линейное наращивание вычислительных ступеней и, соответственно, практически линейный рост производительности. Результаты экспериментальных исследований показали, что применение разработанного авторами метода при реализации задачи LU-разложения для матрицы размерностью n = 104 с числами стандарта FP64 IEEE754 обеспечило увеличение производительности на НРК «Терциус» на 36% и сокращение аппаратных затрат на 50% по сравнению с исходным методом.

References

1. I.A. Kalyaev (Ed.), I.I. Levin, E.A. Semernikov, V.I. Shmoilov Reconfigurable Multipipeline Computing Structures // Nova Science Publishers, Inc. New York, USA. 330 pp, 2012.

2. I.I. Levin, A.V. Pelipets, D.A. Sorokin estimation and prospects of solving LU-decomposition on reconfigurable computer systems // Izvestiya SFedU. Engineering Sciences, july 2015, no. 7(168), pp. 62-70

3. Wei Wu, Yi Shan, Xiaoming Chen, Yu Wang, Huazhong Yang. FPGA Accelerated Parallel Sparse Matrix Factorization for Circuit Simulations. 7th International Symposium, ARC 2011, Belfast, UK, March 23-25, 2011, pp. 302-315.

4. D.A. Sorokin Metody resheniya zadach s peremennoy intensivnost'yu potokov dannykh na rekonfiguriruemykh vychislitel'nykh sistemakh. Dis. kand. tekhn. nauk[Problem-solving methods with variable intensity of the data streams on reconfigurable computing systems.Cfnd. ofeng. sc.diss.].Taganrog, 2012,pp. 51-58.

INCREASING THE EFFICIENCY OF MASS TRANSFER PROCESSES OF OIL REFINERIES

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Nurtashova M.Z.,

undergraduate student, NJSC «Toraigyrov University» Pavlodar, 140008, Republic of Kazakhstan Massakbayeva S.R.

candidate of chemical sciences, professor S. Toraighyrov Pavlodar State University, Pavlodar, 140008, Republic of Kazakhstan

УВЕЛИЧЕНИЕ ЭФФЕКТИВНОСТИ МАССООБМЕННЫХ ПРОЦЕССОВ НЕФТЕПЕРЕРАБАТЫВАЮЩИХ ПРОИЗВОДСТВ

Нурташова М.Ж.,

магистрант, НАО «Торайгыровуниверситет», г. Павлодар, 140008, Республика Казахстан

Масакбаева С.Р. к.х.н., профессор, НАО «Торайгыровуниверситет», г. Павлодар, 140008, Республика Казахстан

Abstract

Mass transfer processes play a significant role in petrochemical production. In this regard, the issue of increasing the efficiency of mass transfer processes becomes relevant. This article discusses the main directions of increasing the efficiency of mass transfer processes, in particular packing devices.

Аннотация

Массообменным процессам отведена значительная роль в нефтехимическом производстве. В связи с этим актуальным становится вопрос повышения эффективности массообменных процессов. В данной статье рассмотрены основные направления повышения эффективности массообменных процессов, в частности насадочные устройства.

Keywords: mass transfer processes, efficiency, particular packing devices.

Ключевые слова: массообменные процессы, эффективность, насадочные устройства.

При переработке нефти, различных углеводородных и других смесей очень важная роль отведена массообменным процессам. Например, ректи-фикаций из нефти получают различные продукты:

бензин, керосин, дизельное топливо, мазут, масляные фракции, узкие (по температурам кипения) бензиновые фракции, а при ректификации сжиженных газов можно выделить этилен, этан, пропан,

МОДИФИЦИРОВАННЫЙ МЕТОД РЕШЕНИЯ ЗАДАЧИ LU-РАЗЛОЖЕНИЯ НА РВС Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Левин И.И., Пелипец А.В., Сорокин Д.А., Дудников Е.А.

Похожие темы научных работ по математике , автор научной работы — Левин И.И., Пелипец А.В., Сорокин Д.А., Дудников Е.А.

A MODIFIED METHOD FOR RCS IMPLEMENTATION OF LU-DECOMPOSITION

Текст научной работы на тему «МОДИФИЦИРОВАННЫЙ МЕТОД РЕШЕНИЯ ЗАДАЧИ LU-РАЗЛОЖЕНИЯ НА РВС»