병렬에서 고속 SERDES까지, 그리고 Gigabit Transceiver

병렬 버스의 한계

전통적인 병렬 데이터 버스는 낮은 속도에서는 효율적이었지만, 클럭 주파수가 증가함에 따라 근본적인 물리적 한계에 직면하게 되었다. 가장 주요한 문제는 데이터 전송률이 기가비트 수준에 도달하면서 발생하는 심각한 신호 무결성 문제이다. 특히, 여러 개의 병렬 데이터 라인과 별도의 클럭 라인 사이의 타이밍 스큐(timing skew)가 주요 병목 현상으로 작용한다. 주파수가 높아질수록 클럭 주기는 짧아지며, 아주 미세한 스큐라도 비트 타이밍에 치명적인 영향을 미쳐 데이터 오류를 유발할 수 있다. 이러한 문제들은 대규모 배선, 높은 핀 수, 그리고 PCB(Printed Circuit Board)의 큰 면적을 요구하는 병렬 버스의 단점과 맞물려 시스템 설계의 복잡성을 가중시켰다.


LVDS

LVDS(Low-voltage differential signaling)는 1990년대 중반에 널리 사용되었던 물리 계층 표준입니다. 이 기술은 병렬 TTL/CMOS와 같은 싱글-엔디드(single-ended) 방식에 비해 전력 소모가 적고, EMI(전자기 간섭)가 적으며, 데이터 전송률을 높일 수 있다는 장점 덕분에 각광받았습니다.

그러나 LVDS는 다음 몇 가지 기술적 한계 때문에 기가비트 이상의 고속 통신에서는 SERDES(Serializer/Deserializer) 기술로 대체되었습니다.

  • 최대 전송 속도 제한: LVDS 표준은 공식적으로 최대 655Mbps의 전송 속도를 지정하고 있지만, 반도체 제조사의 자체 기술로 최대 3Gbps까지 속도를 달성하기도 했습니다. 그러나 이 속도는 SERDES가 지원하는 10Gbps 이상의 데이터 전송률에 비하면 상당히 낮습니다.  
  • 복잡한 시스템 요구 사항: 1G 이상의 속도를 달성하기 위해 LVDS를 사용하면 여러 개의 LVDS 데이터 레인과 별도의 클럭 라인이 필요해집니다. 이는 설계 복잡성과 PCB 설계의 난이도를 높이며, 특히 데이터와 클럭 간의 타이밍 스큐(timing skew) 문제가 고속에서 신호 무결성을 저하시키는 주요 원인이 됩니다. SERDES는 클럭과 데이터를 단일 직렬 라인으로 통합하여 이러한 스큐 문제를 해결합니다.  
  • 높은 해상도 및 장거리 전송 한계: LVDS는 고해상도 비디오 신호와 같은 특정 애플리케이션에서 사용되었지만, 8K 비디오와 같은 고해상도 신호나 장거리 전송(수 미터 이상)에는 적합하지 않았습니다. 이 경우 케이블의 스큐와 전력 손실이 문제가 될 수 있습니다.  

결론적으로, LVDS는 병렬 인터페이스의 한계를 극복하는 중요한 기술이었지만, 10G 이상의 초고속 데이터 전송이 요구되면서 데이터와 클럭을 통합하고 더 높은 전송 속도를 지원하는 SERDES 기술에 자리를 내주게 되었습니다.

SERDES는 넓은 병렬 데이터를 하나의 차동(differential) 라인으로 직렬화하여 전송하고, 수신단에서 이를 다시 병렬 데이터로 변환한다. 이 방식은 병렬 버스가 가지고 있던 타이밍 스큐 문제를 원천적으로 해결하며, 인터커넥트 신호의 수를 크게 줄여 시스템의 무게와 부피를 획기적으로 감소시킨다.


SERDES (Serializer/Deserializer) 아키텍처 개요

일반적인 SERDES 인터페이스는 여러 핵심 구성 요소로 이루어져 있다. 송신단(Serializer)에는 인코더, 타이밍 제어, 그리고 멀티플렉서(multiplexer)가 포함된다. 이들은 넓은 병렬 데이터(예: 64비트)를 인코딩하여 고속의 단일 직렬 데이터 스트림으로 변환한다. 반대로, 수신단(Deserializer)에는 디멀티플렉서(de-multiplexer), 디코더, 그리고 가장 중요한 CDR(Clock and Data Recovery) 회로가 내장되어 있다. 이들은 수신된 직렬 데이터를 다시 원래의 병렬 형태로 복원하는 역할을 한다.  

SERDES 링크에서 클럭과 데이터 복구(CDR)는 가장 중요한 기능 중 하나이다. 고속 직렬 데이터 전송에서는 별도의 클럭 라인을 보내는 것이 비실용적이다. 그 이유는 데이터와 클럭 간의 스큐 및 지터(jitter) 문제로 인해 동기화가 매우 어려워지기 때문이다. 따라서, SERDES는 스스로 클럭을 포함하는(self-clocking) 데이터 스트림을 사용한다. 송신단의 인코더는 병렬 데이터를 직렬화하기 전에 동기화에 필수적인 오버헤드 비트를 추가한다. 이 오버헤드 비트는 데이터 스트림에 충분한 전이(transition)를 보장하여 수신단에서 안정적으로 클럭을 추출할 수 있도록 돕는다. 이러한 전이는 DC 밸런싱과 오류 감지에도 기여한다.  

수신단의 CDR 회로는 입력된 고속 직렬 데이터 스트림에서 클럭 정보를 추출하고 데이터를 복구하는 역할을 수행한다. CDR의 구현 방법은 다양하며, 크게 오버샘플링(oversampling) 방식과 PLL 기반(PLL-based) 방식으로 나뉜다. 오버샘플링 방식은 데이터 비트 주기당 여러 개의 샘플을 획득하기 위해 매우 높은 주파수의 클럭을 요구한다. 반면, PLL 기반 방식은 위상 검출기를 사용하여 수신된 무작위(NRZ) 데이터와 내부 기준 클럭 사이의 위상 정보를 비교하고, 이 위상 정보를 바탕으로 클럭의 위상을 조정하여 데이터를 복구한다.  

SERDES의 핵심은 단순한 직렬화가 아니라, 수신된 데이터 스트림에서 신뢰성 높은 클럭을 재구성하는 능력에 있다. CDR 회로의 성능, 특히 지터를 필터링하고 들어오는 데이터의 위상을 추적하는 능력은 링크의 최대 속도와 신뢰성을 직접적으로 결정한다. 즉, 고속 직렬 링크의 성공은 원시 데이터 전송률뿐만 아니라 복구된 클럭의 무결성에 달려 있다고 볼 수 있다.


AMD 고속 트랜시버: 하드웨어 엔진

AMD(구 자일링스) FPGA는 다양한 고성능 직렬 I/O 트랜시버(Multi-Gigabit Transceivers, MGT)를 내장하고 있다. 이들은 고속 통신의 물리 계층을 담당하는 하드웨어 엔진이다. AMD는 여러 FPGA 제품군에 걸쳐 GTH, GTY, GTM과 같은 다양한 트랜시버를 제공하며, 각 트랜시버는 특정 성능 및 애플리케이션 요구사항을 충족하도록 설계되었다.

  • GTH 및 GTY 트랜시버: 이들은 7시리즈 및 UltraScale 아키텍처 기반 FPGA의 핵심적인 고속 I/O 블록이다. GTH 트랜시버는 최대 16.3 Gbps의 데이터 전송 속도를 지원하며, Kintex 및 Artix 제품군에 사용된다. 반면, GTY 트랜시버는 UltraScale 아키텍처에서 최대 32.75 Gbps의 더 높은 속도를 지원한다. 이들은 모두 10G Ethernet과 같은 표준 프로토콜을 지원하는 데 적합하다.  
  • GTM 트랜시버: Versal 적응형 SoC 아키텍처에서 제공되는 GTM 트랜시버는 AMD의 가장 고성능 트랜시버이다. 7nm 공정 기술로 제작되었으며, 9.5 Gbps에서 최대 112 Gbps까지의 매우 넓은 데이터 전송 속도를 지원한다. 특히, GTM은 NRZ(Non-Return-to-Zero)와 함께 PAM4(Pulse-Amplitude Modulation 4-Level) 변조 방식을 지원하여, 100G 및 400G Ethernet과 같은 차세대 네트워크 애플리케이션에 필수적인 성능을 제공한다.  

이러한 트랜시버의 진화는 단순한 데이터 속도 증가를 넘어 기술 및 아키텍처의 근본적인 변화를 반영한다. NRZ 시그널링의 물리적 한계에 도달하면서, GTM 트랜시버에 PAM4 변조를 도입한 것은 차세대 데이터 센터 및 네트워킹의 요구사항을 충족시키기 위한 AMD의 전략적 결정이다.

https://docs.amd.com/v/u/en-US/ug581-ultrascale-gtm-transceivers

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다