DOI QR코드

DOI QR Code

A Performance Enhancement of a Naval Multi-Function Radar Signal Processor

GPU를 이용한 함정용 다기능레이다 신호처리기 성능 개선 연구

  • 권세웅 (LIG넥스원(주), 레이다연구소 수석연구원) ;
  • 홍성민 (LIG넥스원(주), 레이다연구소 선임연구원) ;
  • 유성현 (LIG넥스원(주), 레이다연구소 수석연구원) ;
  • 정채현 (LIG넥스원(주), 레이다연구소 선임연구원) ;
  • 손성환 (LIG넥스원(주), 레이다연구소 수석연구원) ;
  • 이기원 (LIG넥스원(주), 레이다연구소 수석연구원) ;
  • 강연덕 (LIG넥스원(주), 레이다연구소 연구위원)
  • Received : 2020.03.20
  • Accepted : 2020.04.03
  • Published : 2020.04.30

Abstract

We studied for GPU based signal processor for naval multi-function radar. We implemented processing software both DSP and GPU, and compared computation performances and power consumption. As a result, computation performance was enhanced from 1.2 to 4.1 times compared with a DSP result. From the results, GPU can alternating DSP based signal processor for common radar processor even though Naval Multi Function Radar.

본 논문에서는 공간 및 전원에 제약사항이 존재하는 함정용 다기능레이다의 생존성 향상을 위해 고속 연산용 DSP를 GPU로 대체 가능성을 검토하기 위한 연구를 수행하였다. 성능비교를 위해 동일한 알고리즘으로 DSP와 GPU상에 신호처리기를 구현하였으며, 다기능 추적 레이다 비디오 신호에 대해 응답속도 측면에서 비교를 수행하였다. 성능비교 결과 전체 신호처리 응답속도는 최소 95 us에서 328 us로 GPU가 DSP대비 1.2배~4.1배 우세하였다. 이 연구를 통해 DSP대비 GPU의 성능은 향후 함정용 다기능레이다 뿐 아니라 고속연산이 필요한 레이다신호처리장치를 대체할 수 있을 것으로 예상된다.

Keywords

Ⅰ. 서론

디지털기술의 발달로 RF를 이용하는 레이다 기술은전력증폭기를 제외한 나머지 모듈이 모두 단일칩셋으로구현되어 단일칩이 RF에서 기저대역(Baseband)까지 모두 처리하는 완전디지털 배열로 진화하고 있다. 디지털배열기술의 가장 큰 장점인 다중빔 기술을 이용하여 표적탐지정확도 향상, 최적 운용자원 배치 등 다양한 강점이 레이다에 적용되고 있다[1].

디지털 다중빔의 경우 신호의 손실 없이 여러 방향으로 동시에 빔을 형성할 수 있는 반면, 동일 시간에 처리해야 하는 데이터양이 빔 개수만큼 증가하기 때문에 디지털빔형성장치와 신호처리장치의 연산량 및 데이터 전송속도가 디지털다중빔 성능의 제약사항이 된다. 특히 함정용 다기능레이다와 같이 한정된 공간과 전력으로 임무를 수행하는 경우는 이에 대한 제약사항이 더욱 커지게 된다.

본 연구에서는 이러한 제약사항을 극복하기 위한 노력으로 GPU(Graphic Processing Unit) 기반의 신호처리장치 성능을 기존의 DSP(Digital Signal Processor)기반의 레이다 신호처리장치와 비교 검토하였다. GPU의발전으로 GPU는 딥러닝[2], 영상인식[3][4] 등 다양한 분야에서 활용되고 있다. GPU를 이용한 신호처리장치의 경우 레이다 기본 연산을 GPU, CPU, FPGA간 비교한 연구에 의하면 CPU-GPU간 전송 대역폭 제한으로 인한성능저하, 상대적으로 적은 데이터량을 실시간으로 처리함에 따른 성능저하 등으로 레이다의 실시간 신호처리에GPU보다는 FPGA가 더 유리하고 레이다 신호처리 알고리즘의 복잡도가 낮은 경우 GPU의 성능을 최대한 끌어내지 못하는 것으로 판단하였다[5]. 이에 반해 신호처리장치에서 필요한 다양한 알고리즘들에 대한 성능을 CPU와비교 결과 GPU가 우세함이 알려져 있다[6[7][8].

이러한 연구 결과를 기반으로 최근 발전하는 다기능레이다의 경우 최적 운용 성능을 위해 다중빔을 이용할 뿐아니라 신호 길이 및 펄스개수가 다양하게 운용되어 빠른 응답속도 및 대용량 연산을 제공하여야 한다. 또한 DSP대비 GPU의 성능을 가장 저하시키는 부분인 메모리복사는 시스템에 따라 다르기 때문에 다기능레이다용으로 GPU의 적용이 적절한지 여부는 추가 연구가 필요한 상황이다. 따라서 단위 연산뿐 아니라 실제 적용시 필요한 전체 연산 에 대해 구현된 성능이 추가되어야 실 운용시 적용 여부를 판단할 수 있다.

본 연구에서는 다기능 추적 레이다에서 운용될 수 있는 파형과 비디오 신호를 이용하여, 다양한 주기의 신호에 대해 응답 특성을 확인하였으며, 일반적인 신호처리전체 단계를 모두 GPU에서 운용되도록 펄스압축, 도플러처리, CFAR(Constant False Alarm Rate)기법까지 구현하여 체계 적용시 성능을 예측하였다. 또한 모든 과정은 실제 장비에서 운용되는 동일한 알고리즘과 최적화를 통해 동일한 성능비교가될 수 있도록 구하여 비교하는 연구를 수행하였다.

Ⅱ. 이론

1. 레이다신호처리장치 구조

레이다 신호처리장치는 레이다 비디오 신호를 입력받아 펄스압축, 도플러처리, 표적 탐지 기능을 수행하며 아래 그림과 같은 연산 흐름을 갖는다. GPU를 쓰는 경우는DSP 구현 대비 GPU 메모리로 복사하고 결과를 출력해주는 부분이 추가된다. 사용된 하드웨어의 사양은 다음과같으며 고속신호처리연산 라이브러리는 DSP의 경우Intel사의 IPP(Intel Performance Premitivie)라이브러리를 사용하였으며, GPU의 경우 Nvidia사의 cuFFT라이브러리를 사용하였다.

OTNBBE_2020_v20n2_141_f0001.png 이미지

그림 1. 장치별 신호처리알고리즘 흐름도

Fig. 1. Signal Processing Algorithm Sequence for Each Processor implementation

표 1. DSP기반신호처리장치 하드웨어 사양

Table 1. DSP based Signal Processor Implementation

OTNBBE_2020_v20n2_141_t0001.png 이미지

표 2. GPU 기반신호처리장치 하드웨어 사양

Table 2. GPU based Signal Processor

OTNBBE_2020_v20n2_141_t0002.png 이미지

2. 레이다신호처리 알고리즘

가. 펄스압축기법

펄스압축기법은 두 신호간의 컨볼루션으로 상관도를계산하며, 일반적으로 실제 구현은 고속푸리에 변환(Fast Fourier Transform)을 이용하여 구현한다.

\(y(t)=x(t)^{*} x_{r \in f}(t)\)

펄스압축은 펄스단위로 병렬 수행하였으며, GPU의경우 성능을 높이기 위해 먼저 메모리를 펄스압축에 맞게 정렬하는 작업을 수행하고 펄스압축을 수행하였다.GPU기반 펄스압축 병렬 구현에 대한 Activity 다이어그램은 다음과 같이 GPU Kernel함수로 메모리를 정렬하고, 난 후 GPU에서 펄스압축을 수행하도록 하였다.

OTNBBE_2020_v20n2_141_f0002.png 이미지

그림 2. GPU기반 펄스압축 병렬 구조

Fig. 2. GPU Based Pulse Compression Activity Diagram

OTNBBE_2020_v20n2_141_f0003.png 이미지

그림 3. 도플러 처리 기법 블록도

Fig 3. Doppler Processing Block Diagram

OTNBBE_2020_v20n2_141_f0004.png 이미지

그림 4. GPU기반 도플러 처리 구조

Fig. 4. GPU Based Doppler Processing Activity Diagram

나. 도플러처리

도플러처리는 레이다 비디오중 Slow time sample간 푸리에변환(Fourier Transform)을 통해 표적의 Slow ime 특성을 도플러 속도로 변환하는 기법이다. 도플러 처리의 경우 펄스압축 결과가 정렬되어 있기 때문에 병렬 고속푸리에변환 만을 수행한다.

다. 표적탐지

표적탐지기법은 잡음에 포함된 신호를 탐지하는 기법으로 CFAR(Constant False Alarm Rate)기법을 주로사용한다. 이 기법은 기준셀 주변의 셀 정보를 이용해 잡음정보를 추출하고 이를 이용하여 기준셀에 포함된 신호를 탐지한다. 가장 일반적으로 적용되는 CFAR기법은 CA-CFAR, SO-CFAR, GO-CFAR, OS-CFAR등이 있으며[10], 본 논문에서는 계산량이 많으나 비균일한 잡음환경이나 다수 표적상황에서 많이 사용되는 OS-CFAR 알고리즘을 적용하였다.

OS CFAR의 연산량은 Ordering과정에서 발생한다.Ordering에서는 입력된 주변 셀의 값에 대해 크기로 순서를 부여하고 지정된 순서의 신호 크기와 테스트셀(CUT : Cell Under Test)과 크기를 비교하여 임계값을넘으면 탐지를 선언한다.

Ⅲ. 결과 분석

1. GPU 입출력 성능

GPU는 데이터 입출력이 CPU를 경유해야 하기 때문에 CPU와 GPU간 입출력 인터페이스가 중요하게 된다.이 부분은 데이터 전송 뿐 아니라 함수 호출에도 영향을 받게 되므로 이에 대한 시험을 수행하였다. 아래 그림은 CPU에서 GPU 함수를 호출하는데 소요된 시간을 호출횟수별로 나타낸 것이다.

시험결과 Thread개수는 호출시간에 영향을 주지 않았으며, GPU 함수 호출당 약 3 us가 소요됨을 확인하였으며 CPU는 GPU대비 함수호출 속도가 약 1000배 빠름을 확인하였다. 이는 GPU함수 호출이 디바이스드라이버를 통해 이루어지기 때문에 CPU함수의 호출보다는 불리한 조건이며, GPU를 이용한 신호처리장치 설계시 고려되어야 하는 부분으로 GPU함수 호출을 최소화 하는 구조로 설계/적용하였다.

OTNBBE_2020_v20n2_141_f0005.png 이미지

그림 5. OS CFAR 기법 블록도

Fig. 5. OS CFAR Block Diagram

OTNBBE_2020_v20n2_141_f0006.png 이미지

그림 6. GPU 함수 호출 성능

Fig. 6. GPU Function Call Performance

표 3. GPU함수 호출시간 비교

Table 3. Function call time on GPU and DSP

OTNBBE_2020_v20n2_141_t0003.png 이미지

표 4. 데이터 전송성능

Table 4. Data Transfer Performance

OTNBBE_2020_v20n2_141_t0004.png 이미지

표5는 데이터블록 크기별로 CPU->GPU 및 GPU->CPU전송을 100회 전송한 시간을 측정한 것다. 이 결과에 의하면 1 kB의 작은 데이터 전송 간은 오버헤드가 발생하여 성능이 제한되나 1 MB이상 전송시는 전송횟수에무관하게 동일한 전송능력을 가진 것을 확인할 수 있다.1kB데이터 전송능력은 1 MB대비 10% 수준이기 때문에 설계 시 속도를 고려해야한다. 단 1kB용량이라도 전송시간은 약 7 us정도로 짧기 때문에 추적레이다와 같이 작은 데이터가 자주 발생하는 경우에도 데이터전송속도가 전체 응답속도 성능에 영향을 미치는 영향은 적을 것으로 판단된다.

표 5. 데이터 파라미터

Table 5. Input Parameters

OTNBBE_2020_v20n2_141_t0005.png 이미지

* Dwell Time : 펄스를 PRI만큼 송신한 시간

3. 신호처리성능

신호처리기에 입력데이터 파라미터는 표3과 같다.

Case 1 데이터는 데이터량이 적으며, 빠른 응답속도가 필요한 경우이며, Case 2데이터는 펄스수가 적고 데이터량이 중간으로 도플러 처리시 반복 횟수가 긴 펄스이다. Case 3은 펄스수가 많아 도플러처리 샘플수가 많은 데이터로 입력시간도 길긴 데이터이다.

GPU의 연산능력을 DSP와 비교한 결과는 다음과 같다. 메모리 복사까지 포함한 전체 연산시간은 GPU가 DSP대비 1.2~4.2배 수준으로 우세함을 확인할 수 있다.

그러나 Case 3의 경우 데이터양이 크기 때문에 연산에서 우위에 있더라도 전송시간에 의한 영향으로 성능이상대적으로 저하됨을 확인할 수 있다.

DSP와 GPU에서 연산별 시간점유율을 확인한 결과 DSP는 거의 일정한 성능을 유지하고 있으나 GPU에서는 전체 연산시간에서 메모리복사 속도가 전체 연산시간에서 큰 비중을 차지할 뿐 아니라 데이터 용량에 따라 가변되어 Case3에서 메모리 복사 시간이 대부분인 것을확인할 수 있다.

그러나 모든 Case에서 최소 응답속도(1.5 ms)보다 연산시간이 짧고 하나의 GPU에서 제공하는 다중프로세서 개수가 다수이기 때문에 다중빔을 이용하는 다기능레이다 신호처리장치로 GPU의 적용이 적합한 것으로 판단된다.

표 6. 레이다 신호처리장치 성능비교

Table 6. Radar Signal Processor Performance Comparison

OTNBBE_2020_v20n2_141_t0006.png 이미지

OTNBBE_2020_v20n2_141_f0007.png 이미지

그림 7. 신호처리성능비교

Fig. 7. Signal Processing Performance Comparisons

OTNBBE_2020_v20n2_141_f0008.png 이미지

그림 8. DSP 신호처리단계별 연산시간 점유율

Fig 8. DSP Signal Processing Time Occupation

OTNBBE_2020_v20n2_141_f0009.png 이미지

그림 9 GPU 신호처리단계별 연산시간 점유율

Fig. 9. GPU Signal Processing Time Occupation

Ⅳ. 결론

GPU를 이용한 신호처리장치는 DSP기반의 신호처리장치와는 다른 특성으로 현재까지 단위연산 수준의 검토만 이루어져 왔었다. 이 논문에서는 GPU를 이용한 레이다신호처리장치 제작 시에는 GPU가 외부 장치라는 것을고려한 설계로 실제 운용 시 필요한 신호처리 구조를 적용하여 성능을 비교하여 CPU보다 GPU의 연산 응답속도가 더 빠름을 확인할 수 있었다. 이 연구로 CPU와 GPU간 메모리 대역폭 제한에도 불구하고 전체 연산속도가 GPU가 더 효율적임을 확인하였으며, 다중빔을 이용하는 함정용 다기능레이다 신호처리가 가능할 것으로 보인다.

References

  1. S. H. Talisa, T. M. Comberiate, M. D. Sharp, O. F. Somerlock, "Benefits of Digital Phased Array Radars," Proceedings of the IEEE Vol. 104, No. 3, Mar. 2016 DOI: https://doi.org/10.1109/JPROC.2016.2515842
  2. Jin-Woo Kim, Phill-Kyu Rhee, "Image Recognition based on Adaptive Deep Learning," The Journal of The Institute of Internet, Broadcasting and Communication (IIBC), Vol. 18, No. 1, pp.113-117, Feb. 28, 2018 DOI: https://doi.org/10.7236/JIIBC.2018.18.1.113
  3. Jongbok Lee, "A Study of The GPGPU Performance," The Journal of The Institute of Internet, Broadcasting and Communication (IIBC), Vol. 18, No. 6, pp.201-206, Dec. 31, 2018 https://doi.org/10.7236/JIIBC.2018.18.6.201
  4. Jin-Woo Kim, Phill-Kyu Rhee, "Image Recognition based on Adaptive Deep Learning," The Journal of The Institute of Internet, Broadcasting and Communication (IIBC), Vol. 18, No. 1, pp.113-117, Feb. 28, 2018 https://doi.org/10.7236/JIIBC.2018.18.1.113
  5. Jonghyun Lee, Jongheon Park, EunHee Kim, "A study of efficiency of GPU on Software Defined Radar Signal Processing," Joint Conference on Communications and Information, April, 2016
  6. Jimmy Pettersson, Ian Wainwright, Radar Signal Processing with Graphics Processors(GPUs), Master Thesis, Uppsala University, 2010
  7. Qin Hua, Song Wei, Tian Shushen, "Research on the Parallel Technology of GPU Acceleration on Radar Signal Processing," Advances in information Sciences and Service Sciences, Vol,4, No. 19, Oct 2012
  8. Scott Sawyer, Rick Pancoast, Mike Iaquinto, Rathin Putatunda, Rex Bennett, John Broadbent, Scott Harrington, Edward Dunne, Benchmark Evaluation of Radar Processing Algorithms on Graphics Processor Units (GPUs), High Performance E Conference 2010, Sep. 2010
  9. Young-Joo Kong, Seon-Keol Woo, Sungho Park, Seung-Yong Shin, Youn Hui Jang, Eunjung Yang, "OS CFAR Computation Time Reduction Technique to Apply Radar System in Real Time," The Journal of Korean Institute of Electromagnetic Engineering and Science, Vol. 29(10), pp. 791-798, Oct. 2018 https://doi.org/10.5515/KJKIEES.2018.29.10.791