SMW MAGAZINE
서울메타위크 매거진
비탈릭 부테린과 MIRI의 네이트 소어스 디렉터가 인공지능의 위험성을 파헤치다: 인공지능이 인간을 멸종시킬 수 있을까요?
2023-05-18

이더리움 창립자 비탈릭 부테린과 머신 인텔리전스 연구소(MIRI)의 네이트 소어레스 이사가 오늘 주잘루에서 인공지능의 위험에 대해 논의했다.

주잘루는 부테린과 암호화폐 커뮤니티의 동료들이 몬테네그로에서 3월 25일부터 5월 25일까지 진행하는 ‘팝업 도시 커뮤니티’이다. 이 행사에는 배우고, 창조하고, 더 길고 건강한 삶을 살며, 자립적인 커뮤니티를 구축하고자 하는 공통의 열망을 가진 200명의 핵심 주민들이 모였다. 두 달 동안 커뮤니티에서는 합성 생물학, 프라이버시를 위한 기술, 공공재, 장수, 거버넌스 등 다양한 주제에 대한 다양한 이벤트도 개최된다.

토론의 시작은 Soares가 버클리에 본사를 둔 비영리단체로, 자신이 운영하는 것보다 더 오랜 역사를 가진 MIRI에서 일한 경험을 소개하는 것으로 시작되었다. 지난 20년 동안 MIRI는 AI 개발이 잘 진행될 수 있도록 기반을 마련하기 위해 노력해 왔다. 비탈릭은 이번 토론을 통해 인류 역사상 출시된 다른 기술들과 비교했을 때 AI가 유독 위험한 이유에 대해 다루고자 했다.

AI가 인류 멸종을 초래할 확률
비탈릭은 오랫동안 AI 위험이라는 주제에 관심을 가져왔으며, AI가 잘못되면 지구상의 모든 생명체가 멸종할 확률이 0.5~1%에 불과하며, 이는 인류의 멸종이나 인류 문명의 돌이킬 수 없는 붕괴를 초래할 수 있는 실존적 위험이라고 확신했다고 말했다.

소어레스가 보기에 인류 멸종은 안전하지 않은 AI 기술 개발의 기본 결과처럼 보인다. 그는 이를 진화와 비교하면서 인류의 발전이 단순한 진화의 변화보다 더 빠르게 진행되고 있는 것 같다고 말했다. AI와 인간의 진화 과정 모두에서 고려해야 할 여러 목표가 있을 때 문제에 대한 최선의 해결책을 찾는 과정인 최적화가 지배적으로 변화하고 있었다. 인간은 자연선택을 통해 유전자에 정보를 하드와이어링하는 대신 입소문을 통해 지식을 전달할 수 있는 단계에 도달했다.

“AI는 궁극적으로 거시적인 최적화 프로세스를 다시 전환할 수 있는 사례입니다. 최적화 측면에서 인간보다 훨씬 더 잘할 수 있다고 생각합니다. 주변 환경을 최적화하는 데 있어 우리는 여전히 꽤 멍청하다고 생각합니다. AI를 통해 우리는 자동화된 최적화가 우주의 거시적 특징을 결정하는 힘이 되는 일종의 단계적 전환을 겪고 있습니다.”라고 Soares는 설명한다.

그는 이러한 미래는 최적화 프로세스가 무엇을 최적화하는지에 따라 달라질 것이며, 대부분의 최적화 대상에 인간이 들어갈 여지가 없기 때문에 인류에게 더 이상 도움이 되지 않을 것이라고 덧붙였다.

인간이 AI를 선한 일을 하도록 훈련시킬 수 있을까요?
부테린은 AI를 훈련시키고 최적화 방법을 알려주는 것은 인간이라고 지적합니다. 필요하다면 기계가 최적화되는 방식을 바꿀 수도 있다. 이에 대해 소어레스는 AI가 선한 일을 하도록 훈련하는 것은 원칙적으로 가능하지만, 단순히 목표를 달성하도록 훈련한다고 해서 AI가 그렇게 하겠다는 뜻은 아니며, 결국 욕망으로 귀결된다고 말했다.

부테린은 인간의 선호도에 대한 방대한 양의 데이터를 확보하고 있는 대규모 언어 모델의 강화 학습에 대해 언급하면서, 기존 인텔리전스가 인간의 선호도를 이해하는 데 점점 더 능숙해지고 있는데 왜 이 방법이 작동하지 않는지 질문했다.

“우리의 동기를 이해하는 것과 관심을 보이는 것 사이에는 큰 차이가 있습니다.”

소어스는 이렇게 대답했다.
“제가 주장하는 바는 대규모 언어 모델이나 AI가 인간 선호의 세세한 부분까지 이해하지 못한다는 것이 아닙니다. 인간 선호의 세세한 부분까지 이해하는 것은 최적화를 최적화하는 것과는 매우 다르다는 것이 제 주장입니다.”라고 그는 덧붙였다.

한 청중은 인공지능과 인간을 비교하며 인간은 인공지능과 마찬가지로 자신이 무엇을 하고 있는지, 무엇을 예측하는지 이해하지 못하는 경향이 있으며, 이는 위험할 수도 있다고 말했다. 그런 다음 그는 소어레스에게 외계인이라고 가정하고 인간이 존재해서는 안 되는 이유를 설명해 달라고 요청했다.

“저는 한 개인 인간에게 신과 같은 힘과 미래를 통제할 수 있는 권한을 주는 것에 대해 흥분하지 않을 것입니다. 이와는 별개로, 저는 무작위적인 역할을 하는 인공지능보다 한 명의 인간에게 권한을 부여하는 것이 훨씬 더 흥미로울 것입니다. 저는 인공지능을 만들지 말아야 한다고 말하는 것이 아닙니다. 제대로 활용해야 한다는 말입니다. 재미와 행복이 가득한 미래, 트랜스휴먼이 외계인과 양수 거래를 하는 등 번영하는 문명에 대해 관심을 갖도록 해야 합니다.”라고 소어레스는 설명한다. “다양한 것을 고려하는 강력한 최적화 프로세스를 구축하면 우주의 모든 가치가 파괴될 수 있습니다.”

그는 인간이 중요하게 여기는 것은 보편적인 것이 아니며, 도덕성은 그것을 연구하는 어떤 마음도 추구할 수 있는 것이 아니라고 덧붙였다. 대신, 도덕성은 조상 대대로 번식에 능숙하게 만들었던 인간에게 내재된 욕구의 결과이며 인간에게만 해당되는 것이다.

궁극적으로 소어레스는 우리가 재미, 행복, 번영하는 미래와 일치하지 않는 비슷한 지능 또는 더 지능적인 무언가를 만들어서는 안 된다고 믿는다. 다른 한편으로 그는 인류가 군비 경쟁을 벌이는 동안 즐거운 미래를 최적화하는 우호적인 초지능을 구축해서는 안 된다고도 말했다. 단기적으로 AI는 인류가 실제로 원하는 것이 무엇인지 파악할 수 있는 시간과 공간을 확보할 수 있도록 돕는 데 전념해야 한다.

ChatGPT는 생물권 전체를 소비하지 않을 것입니다.
부테린은 현재 AI가 예측 등 특정 목표를 달성하기 위해 구축되고 있는 만큼, AI가 목표 지향적이지 않다면 어떻게 될까라고 질문했다. 소어스는 안전하고 기능이 없는 AI를 구축하는 것은 쉬우며, 곧 기능이 있지만 다른 것을 추구하는 AI가 등장할 것이라고 말했다. 그는 ChatGPT가 아직 그런 수준의 기능이 아니기 때문에 전체 생물권을 소비할 것이라고 생각하지 않는다.

소어스는 과학 기술 개발 및 연구 자동화와 같이 가장 흥미로운 AI 애플리케이션은 특정 목표를 추구해야 하는 것 같다고 지적했다.

“GPT로 깔끔한 하이쿠를 쓰게 할 수는 있지만 소설을 쓰게 할 수는 없습니다. 현재 시스템의 한계는 적어도 제가 보기에는 이런 더 깊은 목표를 추구하지 않는다는 사실과 관련이 있습니다.”

RELATED EPISODES
Stay Tuned
뉴스레터를 구독하고 서울메타위크 소식지를 받아보세요