미래의 칩은 그 어느 때보다 더 뜨거워질 것이다 Future Chips Will Be Hotter Than Ever
30년이 넘게 무어의 법칙 이 필연적으로 다가오는 듯했던 것에 힘입어 엔지니어들은 2년마다 같은 면적에 집적할 수 있는 트랜지스터 수를 두 배로 늘려 왔습니다 . 하지만 업계가 논리 집적도를 높이는 데 주력하는 동안, 원치 않는 부작용이 더욱 두드러지게 나타났습니다. 바로 열입니다.

Future Chips Will Be Hotter Than Ever
https://spectrum.ieee.org/hot-chips
오늘날의 CPU 및 GPU 와 같은 시스템온칩 (SoC) 에서 온도는 성능, 전력 소비 및 에너지 효율에 영향을 미칩니다 . 시간이 지남에 따라 과도한 열은 프로세서에서 중요 신호의 전달 속도를 늦추고 칩 성능을 영구적으로 저하시킬 수 있습니다. 또한 트랜지스터에서 더 많은 전류가 누출되어 전력 낭비를 유발합니다. 결과적으로 전력 소비 증가는 칩의 에너지 효율을 저해하여 동일한 작업을 수행하는 데 더 많은 에너지가 필요하게 됩니다.
문제의 근원은 또 다른 법칙, 즉 데나드 스케일링(Dennard scaling) 의 종말 에 있습니다. 이 법칙은 트랜지스터의 선형 크기가 줄어들면 전압이 감소하여 주어진 면적의 총 전력 소비량이 일정하게 유지되어야 한다고 말합니다. 데나드 스케일링은 2000년대 중반 트랜지스터의 전반적인 기능을 저하시키지 않고는 전압을 더 이상 낮출 수 없게 되면서 사실상 종말을 맞이했습니다. 결과적으로 논리 회로의 밀도는 계속 증가했지만, 전력 밀도 또한 증가하여 부산물로 열을 발생시켰습니다.
칩이 점점 더 소형화되고 강력해짐에 따라, 효율적인 방열은 성능과 수명을 유지하는 데 매우 중요해졌습니다. 이러한 효율성을 보장하기 위해서는 새로운 반도체 기술(트랜지스터, 인터커넥트 , 로직 셀 제조 공정)이 열의 생성 및 제거 방식을 어떻게 변화시키는지 예측할 수 있는 도구가 필요합니다. 저와 Imec 연구진은 바로 이러한 도구를 개발했습니다. 저희 시뮬레이션 프레임워크는 업계 표준 및 오픈 소스 EDA(전자 설계 자동화) 도구와 자체 개발 도구 세트를 결합하여 반도체 기술과 이를 기반으로 구축된 시스템 간의 상호 작용을 신속하게 분석합니다.
지금까지의 결과는 피할 수 없습니다. 열 문제는 새로운 기술 노드가 등장할 때마다 커지고 있으며, 열을 처리할 수 있으려면 새로운 칩과 시스템을 설계하는 새로운 방법을 포함한 새로운 솔루션이 필요할 것입니다.
냉각의 한계
전통적으로 SoC는 패키지에 부착된 방열판 위로 공기를 불어넣어 냉각합니다. 일부 데이터센터에서는 기체보다 더 많은 열을 흡수할 수 있기 때문에 액체 냉각제를 사용하기 시작했습니다. 액체 냉각제(일반적으로 물 또는 물 기반 혼합물)는 엔비디아의 새로운 AI GPU 와 같은 최신 고성능 칩에 충분히 효과적일 수 있습니다 . 이러한 GPU는 무려 1,000와트를 소모한다고 합니다. 하지만 팬이나 수냉 쿨러는 앞으로 출시될 소형 노드 기술에는 적합하지 않습니다.

나노시트 트랜지스터 와 상보형 전계 효과 트랜지스터(CFET)를 예로 들어 보겠습니다 . 선도적인 칩 제조업체들은 이미 나노시트 소자로 전환하고 있는데, 이는 현재의 핀 전계 효과 트랜지스터에서 핀(fin)을 수평 반도체 시트 적층 구조로 대체한 것입니다. CFET는 이러한 구조를 극한으로 발전시켜, 더 많은 시트를 수직으로 적층하고 이를 두 개의 소자로 나누어 두 개의 트랜지스터를 하나의 트랜지스터와 거의 같은 면적에 배치합니다. 전문가들은 반도체 업계가 2030년대에 CFET를 도입할 것으로 예상합니다.
저희 연구에서는 A10 (10옹스트롬 또는 1나노미터)이라는 나노시트의 차기 버전과 Imec에서 A10보다 두 세대 후에 출시될 것으로 예상하는 A5라는 CFET 버전을 살펴보았습니다. 테스트 설계 시뮬레이션 결과, A5 노드의 전력 밀도는 A10 노드보다 12~15% 더 높은 것으로 나타났습니다. 이러한 밀도 증가는 동일한 작동 전압에서 예상 온도 상승 9°C로 이어질 것입니다.

9도는 그리 큰 문제가 아닌 것처럼 보일 수 있습니다. 하지만 수십만 개에서 수백만 개의 칩이 집적되어 있는 데이터 센터에서는 안정적인 작동과 열 폭주(thermal runaway)의 차이를 의미할 수 있습니다. 열 폭주는 온도 상승으로 누설 전력이 증가하고, 누설 전력이 다시 온도를 상승시키고, 누설 전력이 다시 증가하는 악순환을 반복하여 결국 안전 장치가 하드웨어를 정지시키고 영구적인 손상을 방지해야 하는 악순환입니다.
연구원들은 이러한 극한의 열을 완화하는 데 도움이 될 수 있는 기본적인 액체 및 공기 냉각 방식의 진보된 대안을 모색하고 있습니다. 예를 들어, 미세유체 냉각은 칩에 식각된 미세한 채널을 사용하여 장치 내부의 액체 냉각수를 순환시킵니다. 다른 방법으로는 칩 표면에 기체나 액체를 고속으로 분사하는 제트 충돌 방식과 인쇄 회로 기판 전체를 냉각수조에 담그는 침지 냉각 방식이 있습니다.
하지만 이러한 새로운 기술이 도입된다 하더라도, 추가 열을 제거하기 위해 쿨러에만 의존하는 것은 비현실적일 가능성이 높습니다. 특히 크기, 무게, 배터리 용량, 그리고 사용자를 과열로부터 보호해야 한다는 제약이 있는 모바일 시스템의 경우 더욱 그렇습니다. 한편, 데이터 센터는 또 다른 제약에 직면합니다. 냉각은 건물 전체의 인프라 비용이므로, 새로운 칩이 출시될 때마다 냉각 시스템을 업데이트하는 것은 비용이 너무 많이 들고 시스템 운영에도 큰 차질을 초래할 것입니다.
성능 대 열
다행히 냉각 기술만이 감자튀김의 튀는 것을 막을 수 있는 유일한 방법은 아닙니다. 다양한 시스템 수준의 솔루션이 변화하는 열 조건에 동적으로 적응하여 열을 제어할 수 있습니다.
한 가지 방법은 칩 주변에 열 센서를 배치하는 것입니다. 센서가 우려스러운 온도 상승을 감지하면 작동 전압과 주파수, 그리고 결과적으로 전력 소비를 줄여 열을 상쇄하도록 신호를 보냅니다. 하지만 이러한 방식은 열 문제를 해결하지만 칩 성능에 상당한 영향을 미칠 수 있습니다. 예를 들어, 스마트폰을 햇빛에 노출시켜 본 사람이라면 누구나 알 수 있듯이 칩은 고온 환경에서는 항상 제대로 작동하지 않을 수 있습니다.
열 스프린팅(thermal sprinting)이라고 하는 또 다른 접근 방식은 멀티코어 데이터센터 CPU 에 특히 유용합니다 . 이 방식은 한 코어가 과열될 때까지 작동시킨 후, 첫 번째 코어가 식는 동안 두 번째 코어로 작업을 이전하는 방식입니다. 이 과정은 단일 스레드의 성능을 극대화하지만, 장시간 작업을 위해 여러 코어 간에 작업을 이전해야 하는 경우 지연을 유발할 수 있습니다. 또한 열 스프린팅은 냉각되는 동안 칩의 일부가 항상 비활성화되므로 칩의 전체 처리량을 감소시킵니다.
따라서 시스템 수준 솔루션은 열과 성능 간의 신중한 균형점을 필요로 합니다. 이러한 솔루션을 효과적으로 적용하려면 SoC 설계자는 칩에서 전력이 어떻게 분배되는지, 어디에 핫스팟이 발생하는지, 센서를 어디에 배치해야 하는지, 언제 전압 또는 주파수 감소를 트리거해야 하는지, 그리고 칩의 각 부분이 냉각되는 데 걸리는 시간을 종합적으로 이해해야 합니다. 하지만 최고의 칩 설계자조차도 머지않아 더욱 창의적인 열 관리 방법을 필요로 하게 될 것입니다.
칩 뒷면 활용하기
유망한 연구 분야 중 하나는 웨이퍼 뒷면에 새로운 기능을 추가하는 것입니다. 이 전략은 주로 전력 공급과 연산 성능 향상을 목표로 합니다. 하지만 일부 열 문제 해결에도 도움이 될 수 있습니다.
Imec은 칩이 더 낮은 전압에서 작동하여 발열량을 줄일 수 있는 여러 가지 후면 기술을 예상합니다. 로드맵의 첫 번째 기술은 소위 후면 전력 공급망(BSPDN) 으로 , 말 그대로 칩 전면에서 후면으로 전력선을 이동시키는 역할을 합니다. 모든 첨단 CMOS 파운드리는 2026년 말까지 BSPDN을 출시할 계획입니다 . 초기 시연을 통해 BSPDN이 전원 공급 장치를 트랜지스터에 훨씬 더 가깝게 배치하여 저항을 줄이는 것으로 나타났습니다. 저항이 낮을수록 전압 손실이 줄어들어 칩을 더 낮은 입력 전압에서 작동시킬 수 있습니다. 전압이 낮아지면 전력 밀도가 떨어지고, 그에 따라 온도도 낮아집니다.

4개의 다층 직사각형이 일련의 구불구불한 선 위에 떠 있습니다.새로운 기술은 멀티코어 프로세서에 공급해야 하는 전압을 줄여 칩이 허용 가능한 주파수에서 작동하는 동안 최소 전압을 유지할 수 있도록 합니다. 후면 전력 공급 네트워크는 저항을 줄임으로써 이를 수행합니다. 후면 커패시터는 과도 전압 손실을 낮춥니다. 후면 통합 전압 레귤레이터는 필요에 따라 각 코어가 서로 다른 최소 전압에서 작동할 수 있도록 합니다. Imec
BSPDN 이후, 제조업체들은 후면에도 높은 에너지 저장 용량을 가진 커패시터를 추가하기 시작할 것으로 예상됩니다. 인쇄 회로 기판(PCB)과 칩 패키지의 인덕턴스로 인한 큰 전압 변동은 고성능 SoC에서 특히 문제가 될 수 있습니다. 후면 커패시터는 트랜지스터에 더 가까이 위치하여 전압 스파이크와 변동을 더 빠르게 흡수할 수 있기 때문에 이 문제를 해결하는 데 도움이 될 것입니다. 따라서 이러한 배치는 BSPDN만 사용할 때보다 칩을 훨씬 더 낮은 전압과 온도에서 작동시킬 수 있게 합니다.
마지막으로, 칩 제조업체들은 후면 통합 전압 레귤레이터(IVR) 회로를 도입할 것입니다. 이 기술은 더욱 미세한 전압 조정을 통해 칩의 전압 요구량을 더욱 줄이는 것을 목표로 합니다. 예를 들어, 스마트폰용 SoC는 일반적으로 8개 이상의 연산 코어를 가지고 있지만, 칩 내부에는 각 코어가 별도의 전압 레귤레이터를 가질 공간이 없습니다. 대신, 일반적으로 하나의 오프칩 레귤레이터가 네 개의 코어가 동일한 연산 부하를 받더라도 네 개의 코어 전압을 함께 관리합니다. 반면, IVR은 전용 회로를 통해 각 코어를 개별적으로 관리하여 에너지 효율을 향상시킵니다. IVR을 후면에 배치하면 전면의 귀중한 공간을 절약할 수 있습니다.

후면 기술이 열 관리에 어떤 영향을 미칠지는 아직 불분명하며 , 그 영향을 파악하기 위해서는 시연과 시뮬레이션이 필요합니다. 새로운 기술을 추가하면 전력 밀도가 증가하는 경우가 많으므로, 칩 설계자는 열적 영향을 고려해야 합니다. 예를 들어, 후면 IVR을 배치할 때 IVR을 고르게 분산시키면 열 문제가 개선될까요, 아니면 각 코어 중앙이나 메모리 캐시와 같은 특정 영역에 집중시키면 열 문제가 개선될까요?
최근 저희는 후면 전력 공급이 기존 문제를 해결하면서도 새로운 열 문제를 야기할 수 있음을 보여주었습니다. 그 원인은 BSPDN(Best Side Power Distribution Network)을 생성할 때 남는 매우 얇은 실리콘층 때문입니다. 전면 설계에서 실리콘 기판은 최대 750마이크로미터 두께까지 가능합니다. 실리콘은 열을 잘 전달하기 때문에, 이 비교적 두꺼운 층은 트랜지스터에서 발생하는 열을 측면으로 분산시켜 핫스팟(Hot Spot)을 제어하는 데 도움이 됩니다. 그러나 후면 기술을 추가하려면 후면에서 트랜지스터에 접근할 수 있도록 기판을 약 1mm로 얇게 만들어야 합니다. 두 겹의 전선과 절연체 사이에 끼어 있는 이 얇은 실리콘층은 더 이상 열을 측면으로 효과적으로 이동시킬 수 없습니다. 결과적으로, 과활성 트랜지스터에서 발생하는 열이 국부적으로 갇혀 온도가 낮은 곳으로 밀려나 핫스팟을 악화시킬 수 있습니다.
80코어 서버 SoC 시뮬레이션 결과, BSPDN은 핫스팟 온도를 최대 14°C까지 높일 수 있는 것으로 나타났습니다. 후면 금속 두께를 늘리는 등 설계 및 기술적인 개선을 통해 상황을 개선할 수 있지만, 완전히 방지하기 위해서는 더 많은 완화 전략이 필요합니다.
"CMOS 2.0" 준비
BSPDN은 Imec이 CMOS 2.0이라고 부르는 실리콘 로직 기술의 새로운 패러다임의 일부입니다. 이 새로운 시대에는 고급 트랜지스터 아키텍처와 특수 로직 계층이 도입될 것입니다. 이러한 기술의 주요 목적은 칩 성능과 전력 효율을 최적화하는 것이지만 , 방열 개선을 포함한 열적 이점도 제공할 수 있습니다.
오늘날의 CMOS 칩에서는 단일 트랜지스터가 가까이 있는 부품과 멀리 있는 부품 모두에 신호를 전달하여 비효율성을 초래합니다. 하지만 구동층이 두 개라면 어떨까요? 한 층은 긴 전선을 처리하고 특수 트랜지스터로 이러한 연결을 버퍼링할 수 있고, 다른 층은 10mm 미만의 연결만 처리할 수 있습니다. 이 두 번째 층의 트랜지스터는 짧은 연결에 최적화되어 있기 때문에 더 낮은 전압에서 작동할 수 있고, 이는 다시 전력 밀도를 감소시킵니다. 하지만 얼마나 감소할지는 아직 불확실합니다.

분명한 것은 업계의 열 문제 해결이 여러 학문 분야를 아우르는 노력이 필요하다는 것입니다. 열 인터페이스 소재, 트랜지스터, 시스템 제어 방식, 패키징, 쿨러 등 어떤 기술 하나만으로 미래 칩의 열 문제를 해결할 수는 없을 것입니다. 이 모든 기술이 필요할 것입니다. 그리고 훌륭한 시뮬레이션 도구와 분석을 통해 각 접근 방식을 얼마나, 그리고 어떤 일정에 맞춰 적용해야 하는지 이해할 수 있을 것입니다. CMOS 2.0 기술, 특히 후면 기능화 및 특수 로직의 열적 이점은 유망해 보이지만, 이러한 초기 예측을 확인하고 그 의미를 면밀히 연구해야 할 것입니다. 예를 들어 후면 기술의 경우, 열 발생과 발산에 어떤 영향을 미치는지, 그리고 그로 인해 해결되는 문제보다 새로운 문제가 더 많이 발생하는지 정확히 파악해야 합니다.
칩 설계자들은 예상치 못한 열 문제를 소프트웨어에서 나중에 처리할 수 있다는 가정 하에 새로운 반도체 기술을 도입하려는 유혹에 빠질 수 있습니다. 물론 그럴 수도 있지만, 어느 정도까지는 그렇습니다. 소프트웨어 솔루션에 지나치게 의존하면 칩 성능에 부정적인 영향을 미칠 수 있습니다. 소프트웨어 솔루션은 본질적으로 부정확하기 때문입니다. 예를 들어, 단일 핫스팟을 수정하기 위해 과열되지 않은 더 넓은 영역의 성능을 저하시켜야 할 수도 있습니다. 따라서 SoC와 SoC를 구축하는 데 사용되는 반도체 기술은 서로 긴밀하게 연계되어 설계되어야 합니다.
좋은 소식은 더 많은 EDA 제품이 칩 설계 초기 단계를 포함하여 고급 열 분석 기능을 추가하고 있다는 것입니다 . 전문가들은 또한 시스템 기술 공동 최적화(STC) 라는 새로운 칩 개발 방법을 요구하고 있습니다 . STCO는 시스템, 물리적 설계, 그리고 공정 기술을 전체적으로 고려하여 이들 간의 엄격한 추상화 경계를 허물고자 합니다. 깊이 있는 전문가들은 다른 칩 엔지니어링 분야의 전문가들과 협력하기 위해 자신의 전문 영역을 벗어나야 할 것입니다. 업계의 심화되는 열 관련 과제를 어떻게 해결할지 아직 정확히 알지는 못하지만, 적절한 도구와 협력을 통해 이를 달성할 수 있을 것이라고 낙관합니다.
Future Chips Will Be Hotter Than Ever
https://spectrum.ieee.org/hot-chips
KCONTENTS







