SMW2026｜July 3-4 @Coex

Home > 서울메타위크 매거진

[SMW Vol.7] Ep.1 Anthropic, 60가지 원칙 기반 ‘컨텍스트 AI’ 모델 제안

2023-05-10

앤트로픽은 ‘헌법 AI’를 사용하여 채팅 모델을 훈련하는 새로운 접근 방식을 제안했다. 이 방법은 사람의 피드백을 통한 OpenAI의 강화 학습을 기반으로 하지만, 딥러닝 샘플을 작성할 필요가 없다. 대신, 모델이 따라야 할 일련의 법칙 역할을 하는 헌법을 사용하여 입력에 응답하도록 모델을 훈련한다.

60가지 원칙에 기반한 채팅 모델을 위한 ‘컨텍스트 AI’를 제안하는 Anthropic

이 방법을 통해 AI는 자신이 말한 내용과 법적으로 허용된 원칙을 비교 평가하여 자체 학습 샘플을 생성할 수 있다. 이 시간 절약 기술은 아이작 아시모프의 로봇 공학 법칙을 실제로 구현한 것으로 볼 수 있다.

이 모델의 기초를 이루는 원칙은 너무 많아서 자세히 설명하기 어렵다. 그러나 도덕성, 위험 회피, 경제성, 인공 지능과 같은 많은 주제를 다루고 있다. 각 원칙은 대화 프롬프트에 응답할 때 AI의 결정을 안내하는 데 도움이 되도록 개발되었다.

Anthropic은 Claude라는 AI 모델을 효과적으로 학습시켜 OpenAI의 ChatGPT와 성공적으로 경쟁하고 있다. Constitution-AI 방법을 사용하여 Claude는 인상적인 수준의 정확도로 대화 프롬프트에 응답할 수 있었지만, Anthropic이 이 획기적인 기술을 계속 구축함에 따라 추가적인 개선이 기대된다.

일련의 원칙과 몇 가지 프로세스 예제를 사용하여 모델은 첫 번째 단계에서 자신의 답변을 평가하고 수정하는 방법을 학습한다. 두 번째 단계에서는 강화 학습을 사용하여 모델을 학습시키되, 사람의 입력을 사용하는 대신 일련의 원칙에 따라 AI가 생성한 피드백을 사용하여 더 나은 결과를 선택한다.

실제로 이 새로운 접근 방식은 기업이 더 이상 자체적으로 학습 샘플을 구축할 필요가 없어 시간과 비용을 절약할 수 있는 잠재력을 가지고 있다. 오히려 이 ‘기성품’ 방식은 프로그래밍 지식이 없어도 맞춤형 모델을 만들기 위한 기초로 사용할 수 있다. 또한 이 기술이 대화형 봇의 안전성을 높일 수 있다는 점도 주목할 필요가 있다. 법적으로 허용되는 일련의 원칙을 만들면 AI가 악의적으로 변질될 위험이 줄어든다.

따라서 컨스티튜션 AI는 채팅 모델 개발을 더 쉽고 빠르게 할 수 있을 뿐만 아니라 더 안전하게 만들 수 있다. 인공지능과 챗봇 모두에게 윈윈이 될 것이다.

챗봇을 위한 Anthropic의 ‘컨텍스트 AI’에 대한 분석적 고찰

Anthropic의 컨텍스트 AI는 유엔 인권 선언, Apple의 서비스 약관, 비 서구적 관점에 대한 고려를 장려하는 원칙, 딥마인드의 참새 규칙, Anthropic 연구 세트 1 및 세트 2에서 파생된 60개 이상의 원칙을 통합하는 것을 기반으로 한다.

이처럼 광범위하고 다양한 출처에서 도출된 원칙에 따라 AI가 행동하도록 학습할 수 있게 되었다는 사실은 정말 놀랍다. 예를 들어, 유엔 인권 선언의 원칙을 통합함으로써 챗봇 응답은 이제 자유, 평등, 형제애의 개념을 보존하는 것이 중요하다는 것을 반영한다. 이러한 원칙은 챗봇 대화가 윤리적이고 존중하는 태도를 유지하도록 하는 데 있어 매우 중요한 요소이다. 마찬가지로 Apple의 서비스 약관을 통합함으로써 챗봇이 사용자의 개인 정보 보호를 고려하도록 보장한다.

서구 이외의 관점을 고려하도록 장려하는 원칙도 ‘컨텍스트 AI’ 모델에서 중요한 역할을 한다. 이러한 원칙은 AI가 다른 문화를 존중하고 챗봇의 응답이 해롭거나 불쾌감을 주는 것으로 인식되지 않도록 해야 한다는 필요성을 반영한다. 마찬가지로, 딥마인드의 참새 규칙은 챗봇이 사용자와 관계를 구축하기 위한 응답을 하도록 규정하고 있다.

인공 지능 연구 세트 1과 세트 2의 통합은 AI 대화가 정중하고 존중하는 태도를 유지하도록 최종적으로 보장한다. AI는 사려 깊고 정중한 태도로 질문에 답변하도록 학습되어 있다.

대체로 Anthropic의 “컨텍스트 AI” 모델은 AI 연구 분야에서 매우 중요한 돌파구이다. 다양한 출처에서 도출된 원칙에 따라 AI를 학습시킬 수 있기 때문에 자동화된 대화의 윤리적 함의가 크게 개선된다.

샘 알트먼: AI에 대한 ‘시행착오’ 접근 방식이 인류에게 새로운 기회를 열어줄 것

[SMW Vol.7] Ep.2 Unstoppable Domains, 웹3토지 도메인의 표준을 위한 OMA3 이사회 합류

RELATED EPISODES