인공지능 블랙박스 시대 종언 가이드 랩스 설명 가능한 LLM 스테를링-8B 발표

이미지
그동안 인공지능은 수조 개의 파라미터가 얽힌 신경망 속에서 왜 그런 답변을 내놓는지 알 수 없는 블랙박스로 여겨져 왔습니다. 하지만 샌프란시스코의 유망 스타트업 가이드 랩스가 모든 토큰의 출처를 추적할 수 있는 혁신적인 80억 파라미터 규모의 언어 모델 Steerling-8B를 공개하며 판도를 뒤흔들고 있습니다. 인공지능의 투명성과 신뢰성을 획기적으로 높인 이번 발표의 핵심 기술과 미래 산업에 미칠 파급력을 자세히 살펴보겠습니다. 💡 인공지능의 내부를 들여다보는 개념 레이어의 혁신 기존의 딥러닝 모델들은 결과값이 도출되는 과정을 사후에 분석하는 일종의 모델 신경과학 방식에 의존했습니다. 가이드 랩스의 CEO 줄리어스 아데바요와 최고과학책임자 아야 압델살람 이스마일은 이 접근법을 완전히 뒤집었습니다. 이들은 모델 설계 단계부터 개념 레이어(Concept Layer)를 삽입하여 데이터를 추적 가능한 카테고리로 분류하는 새로운 아키텍처를 구축했습니다. 이를 통해 Steerling-8B는 모델이 생성하는 모든 토큰이 훈련 데이터의 어느 부분에서 기인했는지를 명확히 밝혀낼 수 있게 되었습니다. ✅ 할루시네이션과 편향성 문제를 해결할 정교한 통제력 설명 가능한 AI의 등장은 인공지능의 고질적인 문제인 환각 현상(Hallucination)과 아첨 행위(Sycophancy)를 제어하는 데 결정적인 역할을 합니다. 예를 들어 성별이나 인종과 같은 민감한 개념이 모델 내부에서 어떻게 인코딩되는지 파악하고, 필요에 따라 특정 연결을 신뢰성 있게 활성화하거나 비활성화할 수 있습니다. 줄리어스 아데바요는 MIT 박사 과정 시절인 2018년에 발표한 논문을 통해 기존 모델 해석 방식의 한계를 지적한 바 있으며, Steerling-8B는 그 연구 결과가 실무 엔지니어링으로 구현된 최대 규모의 증명 사례입니다. 🔍 규제 산업의 게임 체인저 금융과 과학 분야의 활용 투명성이 필수적인 규제 산업에서 Steerling-8B의 가치는 더욱 빛납니다. 금융권에서 대...

알리바바, OpenAI의 o1 모델에 도전하는 '오픈' AI 모델 출시

알리바바의 Qwen 팀이 개발한 QwQ-32B-Preview는 325억 개의 매개변수를 포함한 추론 AI 모델로, OpenAI의 o1 모델을 능가하는 성능을 보입니다. 이 모델은 논리 퍼즐과 수학 문제를 해결할 수 있으며, 자체 검증 기능을 갖추고 있습니다. 

QwQ-32B-Preview는 Apache 2.0 라이선스로 상업적 용도로 사용할 수 있지만, 모델의 특정 구성 요소만 공개되어 있습니다.



새로운 AI 모델 QwQ-32B-Preview 등장

알리바바의 Qwen 팀이 개발한 QwQ-32B-Preview는 325억 개의 매개변수를 포함한 추론 AI 모델로, OpenAI의 o1 모델을 능가하는 성능을 보입니다. 

이 모델은 논리 퍼즐과 수학 문제를 해결할 수 있으며, 자체 검증 기능을 갖추고 있습니다. 

QwQ-32B-Preview는 Apache 2.0 라이선스로 상업적 용도로 사용할 수 있지만, 모델의 특정 구성 요소만 공개되어 있습니다.


QwQ-32B-Preview의 성능과 테스트 결과

QwQ-32B-Preview는 최대 32,000 단어의 프롬프트를 처리할 수 있으며, OpenAI의 o1-preview와 o1-mini보다 특정 벤치마크에서 더 나은 성능을 보입니다. 

알리바바의 테스트에 따르면, QwQ-32B-Preview는 AIME와 MATH 테스트에서 OpenAI의 o1 모델을 능가합니다. AIME는 다른 AI 모델을 사용하여 모델의 성능을 평가하고, MATH는 단어 문제 모음입니다.


QwQ-32B-Preview의 추론 능력과 한계

QwQ-32B-Preview는 논리 퍼즐을 해결하고 상당히 어려운 수학 문제에 답할 수 있는 '추론' 능력을 가지고 있습니다. 

그러나, 완벽하지는 않습니다. 알리바바는 블로그 게시물에서 이 모델이 예기치 않게 언어를 전환하거나, 루프에 빠지거나, '상식적 추론'이 필요한 작업에서 성능이 저하될 수 있다고 언급했습니다.


QwQ-32B-Preview의 자체 검증 기능

대부분의 AI와 달리, QwQ-32B-Preview와 다른 추론 모델은 효과적으로 자체 검증을 수행합니다. 

이는 모델이 일반적으로 걸리는 함정을 피하는 데 도움이 되지만, 해결책을 찾는 데 더 오랜 시간이 걸릴 수 있습니다. o1 모델과 유사하게, QwQ-32B-Preview는 작업을 계획하고 일련의 행동을 수행하여 답을 도출합니다.


QwQ-32B-Preview와 정치적 주제

QwQ-32B-Preview는 AI 개발 플랫폼 Hugging Face에서 실행 및 다운로드할 수 있으며, 최근 출시된 DeepSeek 추론 모델과 유사하게 특정 정치적 주제에 대해 신중하게 접근합니다. 

알리바바와 DeepSeek은 중국 기업으로, 중국의 인터넷 규제 기관에 의해 모델의 응답이 '핵심 사회주의 가치'를 구현하는지 평가받습니다. 

많은 중국 AI 시스템은 시진핑 정권에 대한 추측과 같은 주제에 대해 응답을 거부합니다.


추론 모델에 대한 관심 증가

추론 모델에 대한 관심이 증가하는 이유는 '스케일링 법칙'의 타당성이 의문을 받고 있기 때문입니다. 

주요 AI 연구소의 모델들이 예전만큼 극적으로 개선되지 않고 있다는 보도가 잇따르고 있습니다. 이로 인해 새로운 AI 접근법, 아키텍처 및 개발 기술에 대한 경쟁이 벌어지고 있으며, 그 중 하나가 테스트 시간 컴퓨팅입니다. 

테스트 시간 컴퓨팅은 모델이 작업을 완료하는 데 추가 처리 시간을 제공하며, o1 및 QwQ-32B-Preview와 같은 모델의 기반이 됩니다. 

OpenAI와 중국 기업 외에도 주요 연구소들은 테스트 시간 컴퓨팅이 미래라고 믿고 있습니다. 최근 The Information의 보고서에 따르면, 구글은 추론 모델에 집중하는 내부 팀을 약 200명으로 확장하고, 이 노력에 상당한 컴퓨팅 파워를 추가했습니다.


 

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다

댓글

이 블로그의 인기 게시물

로봇 산업의 뜨거운 이슈 - 휴머노이드 경쟁과 로봇 기업의 동향

💧 물로 가는 자동차 ‘아쿠아 드라이브’, 일론 머스크가 정말 공개했을까?

방한 외국인 소비 패턴 변화와 향후 전망: 오렌지스퀘어 보고서 분석