무어의 법칙을 유지하는 것이 점점 복잡해지고 있습니다
더 나은 컴퓨터 칩을 만드는 데 필요한 것은 더 작은 트랜지스터와 더 좁은 인터커넥트뿐이었던 시절이 있었습니다. 실제로 수십 년이 걸렸습니다. 이제 그런 시대는 지났고 트랜지스터는 계속해서 조금씩 작아지겠지만 단순히 트랜지스터를 작게 만드는 것은 더 이상 중요하지 않습니다. 현재 컴퓨팅의 기하급수적인 속도를 유지하는 유일한 방법은 지난주 벨기에 앤트워프에서 열린 ITF 월드 2023에서 연구원들이 시스템 기술 공동 최적화(STCO)라는 계획이라고 주장했습니다. 칩을 기능적 구성 요소로 나누고, 각 기능에 대해 최적의 트랜지스터와 상호 연결 기술을 사용하고, 다시 연결하여 저전력, 더 나은 기능을 갖춘 전체를 만드는 능력입니다.
Imec R&D 관리자 Marie Garcia Bardon은 "이것은 우리를 CMOS의 새로운 패러다임으로 이끈다"고 말했습니다. 벨기에에 본사를 둔 나노기술 연구 기관이 부르는 CMOS 2.0은 복잡한 비전입니다. 그러나 이는 앞으로 나아갈 가장 실용적인 방법일 수 있으며 그 일부는 오늘날의 가장 진보된 칩에서 이미 분명하게 드러납니다.
어떤 의미에서 반도체 산업은 2005년 이전 수십 년 동안 망가졌다고 Imec의 R&D 부사장인 Julien Ryckaert는 말합니다. 그 기간 동안 화학자와 장치 물리학자는 칩의 모든 기능에 사용할 수 있고 컴퓨팅 성능을 꾸준히 향상시킬 수 있는 더 작고, 저전력, 더 빠른 트랜지스터를 정기적으로 생산할 수 있었습니다. 그러나 얼마 지나지 않아 바퀴가 그 계획에서 벗어나기 시작했습니다. 장치 전문가들은 훌륭하고 새로운 트랜지스터를 내놓을 수 있었지만, 그러한 트랜지스터는 CPU의 대부분을 구성하는 SRAM 메모리 및 표준 로직 셀과 같이 더 좋고 더 작은 회로를 만들지 못했습니다. 이에 대응하여 칩 제조업체들은 표준 셀 설계와 트랜지스터 개발 사이의 장벽을 허무기 시작했습니다. 설계 기술 공동 최적화(DTCO)라고 불리는 새로운 계획은 더 나은 표준 셀과 메모리를 만들기 위해 특별히 설계된 장치로 이어졌습니다.
그러나 DTCO만으로는 컴퓨팅을 계속하기에는 충분하지 않습니다. 물리학과 경제적 현실의 한계는 모든 용도에 맞는 트랜지스터를 개발하는 데 장애물이 되었습니다. 예를 들어, 물리적 한계로 인해 CMOS 작동 전압이 약 0.7V 아래로 떨어지는 것이 방지되어 전력 소비 진행 속도가 느려졌다고 Imec의 수석 엔지니어인 Anabela Veloso는 설명합니다. 멀티코어 프로세서로 전환하면 해당 문제가 한동안 개선되는 데 도움이 되었습니다. 한편, 입출력 제한으로 인해 여러 칩의 기능을 프로세서에 통합하는 것이 점점 더 필요해졌습니다. 따라서 프로세서 코어의 여러 인스턴스를 갖는 SoC(시스템 온 칩) 외에도 네트워크, 메모리 및 종종 특수 신호 처리 코어도 통합합니다. 이러한 코어와 기능은 전력과 기타 요구 사항이 다를 뿐만 아니라 동일한 속도로 더 작게 만들 수 없습니다. CPU의 캐시 메모리인 SRAM도 프로세서의 로직만큼 빠르게 축소되지 않습니다.
문제를 해결하는 것은 기술 모음만큼이나 철학적인 변화입니다. Ryckaert에 따르면 STCO는 시스템 온 칩을 전원 공급 장치, I/O 및 캐시 메모리와 같은 기능 모음으로 보는 것을 의미합니다. "기능에 대해 추론하기 시작하면 SoC가 동질적인 시스템이 아니라 단지 트랜지스터와 상호 연결이라는 점을 깨닫게 됩니다."라고 그는 말합니다. "다양한 목적에 최적화된 기능입니다."
이상적으로는 각 기능에 가장 적합한 프로세스 기술을 사용하여 각 기능을 구축할 수 있습니다. 실제로 이는 대부분 자체 실리콘 조각, 즉 칩렛에 각각을 구축하는 것을 의미합니다. 그런 다음 고급 3D 스태킹과 같은 기술을 사용하여 이들을 결합하여 모든 기능이 마치 동일한 실리콘 조각에 있는 것처럼 작동하도록 합니다.
이러한 사고의 예는 이미 고급 프로세서와 AI 가속기에 존재합니다. Intel의 고성능 컴퓨팅 가속기 Ponte Vecchio(현재 Intel Data Center GPU Max라고 함)는 Intel과 Taiwan Semiconductor Manufacturing Co.의 두 가지 서로 다른 프로세스를 사용하여 구축된 47개의 칩렛으로 구성되어 있습니다. AMD는 이미 I/O 칩렛에 서로 다른 기술을 사용하고 있습니다. 그리고 최근에는 컴퓨팅 칩렛의 고급 캐시 메모리를 위해 SRAM을 분리하기 시작했습니다.