요즘 핫한 'Generative AI'의 환경적 해악 The Generative AI Race Has a Dirty Secret
인터넷 검색할 때마다 소량의 온실가스 배출
최근 오픈 AI가 개발한 대화 전문 인공지능(AI) 챗 GPT가 선풍적인 인기를 끌자 구글이 '바드(Bard)'를 공개했고, 마이크로소프트(MS)에서도 유사한 기술을 탑재한 '빙(Bing)'을 내놓았다.
중국 검색업체 바이두도 곧바로 뒤를 이을 태세다.
이용자의 특정한 요구에 맞춰 결과를 생성하는 이른바 '생성형(Generative) AI'가 앞다퉈 출시되고 있다.
이용자 입장에서는 더 나은 결과를 더 빨리 얻을 수 있다는 점에서 반가운 일이다.
하지만, 이러한 경쟁 속에 어두운 그림자도 있다. 바로 에너지 소비와 온실가스 배출이다
이들 AI의 훈련과정과 실제 이용자들의 이용 과정에서 에너지 소비는 피할 수 없다.
100% 재생에너지를 사용하지 않는다면 온실가스가 배출될 수밖에 없기 때문이다.
미국 MIT 테크놀러지 리뷰(지난해 11월 14일)는 이 문제를 "AI 뒤에 감춰진 '더러운 비밀(Dirty Secret)'"이라고 지적했다.
인터넷을 검색할 때마다 소량의 온실가스가 배출된다.
검색 때마다 온실가스 배출된다
구글의 경우 검색을 한 번 하는 데 0.0003 킬로와트시(㎾h)의 에너지가 들어간다. 이때 300㎎의 이산화탄소(CO2)가 배출된다고 보면 된다.
구글에서 전 세계적으로 초당 4만 회, 연간 1조 3000억 회의 검색이 발생한다고 보면 이 검색 엔진을 통해 연간 약 40만 톤의 CO2가 배출되는 셈이다.
단순 검색이 아니라 생성형 AI를 이용하려면, 매번 4~5배 이상 더 많은 작업이 필요한 것으로 알려졌다.
기존 검색보다 챗 GPT를 이용하면 에너지 소비도, 온실가스 배출도 훨씬 많다는 얘기다.
벌써 챗 GPT 사용자가 1억 명이 넘었는데, 생성형 AI가 여럿 생긴다면 상황은 더 심각해진다.
경쟁이 뜨거워지면 온실가스 배출량은 더 늘어날 수밖에 없다.
데이터를 저장해두는 데이터 센터도 늘려야 하고, 성능이 더 나은 슈퍼컴퓨터도 도입해야 한다.
국제에너지기구(IEA)에 따르면 세계적으로 데이터센터에서 배출하는 온실가스는 전체 온실가스 배출량의 1%를 차지한다.
온실가스 배출량 9위인 한국이 전 세계 배출량에서 차지하는 비중이 2%인 점을 고려하면 결코 적은 양이 아니다.
미국 에너지부에 따르면 데이터센터에서 소비되는 전력의 절반은 장비 운영에, 나머지 25~40%는 온도 조절 등 공조 시스템 운영에 들어간다.
AI 훈련 때도 많은 에너지 투입
AI를 학습시키는 대규모 언어 모델(LLM)의 경우 단어 숫자가 기하급수적으로 늘어나면서 AI 훈련에 들어가는 에너지 소비도 그만큼 늘어나게 된다.
챗 GPT 개발을 위한 GPT-3 교육에서는 1287㎿h를 소비하고 550톤의 CO2를 배출했다.
2020년 6월 포브스(Forbes)지 보도에 따르면 옛 모델 GPT-2는 매개변수가 15억 개에 불과했지만, GPT-3는 1750억개로 늘었다.
GPT-2는 400억 단어의 데이터 세트로 학습했는데, GPT-3는 약 5000억 단어의 가중 데이터 세트가 사용됐다.
또, GPT-2가 훈련하는 데는 수십 페타플롭(Petflop)-일(day)이 걸렸다. 즉, 초당 1000조 번 속도로 연산하는 작업을 수십 일 계속했다는 얘기다.
이 자체도 엄청난 작업량인데, GPT-3 훈련을 같은 속도로 했다면 수천 일이 걸렸을 거라는 것이다.
특히, GPT-3는 6개월 동안 4789개의 서로 다른 버전의 모델을 거쳐 최종 모델이 만들었는데, 이 모델을 구축하는 데 총 35톤이 넘는 CO2가 배출됐다.
이는 한국인 1인당 연간 CO2 배출량 13.65톤의 2배가 넘는 양이다.
데이터센터 위치도 중요하다
데이터 센터가 어느 지역에 있는지, 어느 시간대에 AI 훈련이 집중되는지에 따라 에너지 소비는 크게 달라질 수 있다.
가령 태양광·풍력 등 재생에너지 비중이 높은 지역, 원자력발전 비중이 높은 지역에 데이터센터가 있다면 같은 작업을 진행하더라도 온실가스 배출량이 적다.
또, 수력발전 비중이 커지는 시간대에 작업해도 마찬가지다.
에너지 효율도 중요하다.
효율이 가장 나쁜 데이터 센터는 가장 효율이 좋은 곳의 3배나 되는 온실가스를 배출한다.
기업의 입장에서는 투자는 늘지만 수익은 줄어들 수도 있다는 점에서 고민이 없을 수 없다.
결국은 에너지 소비를 줄이는 쪽에 관심을 기울일 수밖에 없다.
경제협력개발기구(OECD) AI 소식지(지난해 4월 12일)에서는 "기계학습(ML)의 모델·하드웨어·데이터센터 등의 최적화, 데이터센터의 적절한 입지 선정을 통해 에너지 사용과 탄소 발자국을 획기적으로 낮출 수 있다"고 지적했다. 탄소 발자국은 국가나 기업, 개인의 온실가스 배출량을 말한다.
처음부터 탄소발자국을 고려한 모델 개발이나 효율적인 하드웨어 도입은 CO2 배출량을 절반 이상 줄일 수 있다는 것이다.
기업들의 감축 노력 시급
지난해 7월 네이처는 관련 기사에서 "온실가스 배출량이 가장 작은 데이터센터를 먼저 사용하고, 가장 큰 규모의 실험을 수행하는 업체일수록 배출량을 투명하게 공개하고 배출량을 최소화하거나 상쇄하는 데 가장 노력해야 한다"고 강조했다.
미국 앨런 인공지능연구소의 제시 닷지 연구원은 "AI 개발과 관련해 녹색 인공지능(Green AI) 인증 시스템을 구축하는 것이 필요하다"고 지적한다.
지난해 6월 서울 코엑스(COEX)에서 열린 ACM(미국 컴퓨터학회)의 '2022 공정성·책임성·투명성(FAccT) 학술대회'의 주제 발표에서 닷지 연구원은 "AI 연구개발 과정에서 온실가스 배출에 대한 투명성을 확보하는 것이 중요한 과제"라고 덧붙였다.
기업들도 나름대로 노력은 하고 있다.
MS는 2050년까지 탄소 네거티브 기업, 즉 온실가스를 배출하지 않고 오히려 흡수하는 기업이 되겠다고 약속한다. MS는 올해 150만 톤 상당의 탄소 배출권을 구매할 계획이다.
구글은 2030년까지 자사는 물론 관련 업체에 이르기까지 온실가스 순 배출 제로를 달성을 추진하고 있다.
배출을 최대한 억제하고, 나머지 배출된 양은 나무를 심는 등의 방법으로 상쇄하겠다는 것이다.
챗 GPT도 문제·해결책 알고 있어
기자는 챗 GPT에도 생성형 AI의 온실가스 배출 문제에 대해 질문을 던졌다.
챗 GPT는 "저와 같은 대규모 언어 모델을 훈련하고 실행하는 데 필요한 에너지 소비가 증가함에 따라 AI의 탄소 발자국에 대한 우려가 커지고 있다"고 답했다.
그러면서 "에너지 효율성 개선, 재생 가능 에너지원 사용, 클라우드 컴퓨팅, 모델 크기 줄이기, 배출된 온실가스 상쇄 프로그램 활용 등으로 온실가스를 줄일 수 있다"고 해결책을 제시했다.
AI 개발자가 하드웨어를 직접 소유하는 대신 에너지 효율이 더 높고 재생에너지를 활용하는 클라우드 컴퓨팅 자원을 사용한다면 탄소발자국을 줄일 수 있다는 것이다.
클라우드 컴퓨팅은 정보처리를 자신의 컴퓨터가 아닌 인터넷으로 연결된 다른 컴퓨터로 처리하는 기술을 말한다.
챗 GPT도 문제를 알고 있고, 어떤 실천이 필요한지도 알고 있었다.
당연히 AI를 개발하는 사람들도 그 사실을 알고 있다는 의미다.
강찬수 환경전문기자 kang.chansu@joongang.co.kr 중앙일보
The Generative AI Race Has a Dirty Secret
(Source: wired.co.uk/article/the-generative-ai-search-race-has-a-dirty-secret)
kcontents