알리바바, OpenAI의 o1 모델에 도전하는 '오픈' AI 모델 출시
- 공유 링크 만들기
- X
- 이메일
- 기타 앱
알리바바의 Qwen 팀이 개발한 QwQ-32B-Preview는 325억 개의 매개변수를 포함한 추론 AI 모델로, OpenAI의 o1 모델을 능가하는 성능을 보입니다. 이 모델은 논리 퍼즐과 수학 문제를 해결할 수 있으며, 자체 검증 기능을 갖추고 있습니다.
QwQ-32B-Preview는 Apache 2.0 라이선스로 상업적 용도로 사용할 수 있지만, 모델의 특정 구성 요소만 공개되어 있습니다.
새로운 AI 모델 QwQ-32B-Preview 등장
알리바바의 Qwen 팀이 개발한 QwQ-32B-Preview는 325억 개의 매개변수를 포함한 추론 AI 모델로, OpenAI의 o1 모델을 능가하는 성능을 보입니다.
이 모델은 논리 퍼즐과 수학 문제를 해결할 수 있으며, 자체 검증 기능을 갖추고 있습니다.
QwQ-32B-Preview는 Apache 2.0 라이선스로 상업적 용도로 사용할 수 있지만, 모델의 특정 구성 요소만 공개되어 있습니다.
QwQ-32B-Preview의 성능과 테스트 결과
QwQ-32B-Preview는 최대 32,000 단어의 프롬프트를 처리할 수 있으며, OpenAI의 o1-preview와 o1-mini보다 특정 벤치마크에서 더 나은 성능을 보입니다.
알리바바의 테스트에 따르면, QwQ-32B-Preview는 AIME와 MATH 테스트에서 OpenAI의 o1 모델을 능가합니다. AIME는 다른 AI 모델을 사용하여 모델의 성능을 평가하고, MATH는 단어 문제 모음입니다.
QwQ-32B-Preview의 추론 능력과 한계
QwQ-32B-Preview는 논리 퍼즐을 해결하고 상당히 어려운 수학 문제에 답할 수 있는 '추론' 능력을 가지고 있습니다.
그러나, 완벽하지는 않습니다. 알리바바는 블로그 게시물에서 이 모델이 예기치 않게 언어를 전환하거나, 루프에 빠지거나, '상식적 추론'이 필요한 작업에서 성능이 저하될 수 있다고 언급했습니다.
QwQ-32B-Preview의 자체 검증 기능
대부분의 AI와 달리, QwQ-32B-Preview와 다른 추론 모델은 효과적으로 자체 검증을 수행합니다.
이는 모델이 일반적으로 걸리는 함정을 피하는 데 도움이 되지만, 해결책을 찾는 데 더 오랜 시간이 걸릴 수 있습니다. o1 모델과 유사하게, QwQ-32B-Preview는 작업을 계획하고 일련의 행동을 수행하여 답을 도출합니다.
QwQ-32B-Preview와 정치적 주제
QwQ-32B-Preview는 AI 개발 플랫폼 Hugging Face에서 실행 및 다운로드할 수 있으며, 최근 출시된 DeepSeek 추론 모델과 유사하게 특정 정치적 주제에 대해 신중하게 접근합니다.
알리바바와 DeepSeek은 중국 기업으로, 중국의 인터넷 규제 기관에 의해 모델의 응답이 '핵심 사회주의 가치'를 구현하는지 평가받습니다.
많은 중국 AI 시스템은 시진핑 정권에 대한 추측과 같은 주제에 대해 응답을 거부합니다.
추론 모델에 대한 관심 증가
추론 모델에 대한 관심이 증가하는 이유는 '스케일링 법칙'의 타당성이 의문을 받고 있기 때문입니다.
주요 AI 연구소의 모델들이 예전만큼 극적으로 개선되지 않고 있다는 보도가 잇따르고 있습니다. 이로 인해 새로운 AI 접근법, 아키텍처 및 개발 기술에 대한 경쟁이 벌어지고 있으며, 그 중 하나가 테스트 시간 컴퓨팅입니다.
테스트 시간 컴퓨팅은 모델이 작업을 완료하는 데 추가 처리 시간을 제공하며, o1 및 QwQ-32B-Preview와 같은 모델의 기반이 됩니다.
OpenAI와 중국 기업 외에도 주요 연구소들은 테스트 시간 컴퓨팅이 미래라고 믿고 있습니다. 최근 The Information의 보고서에 따르면, 구글은 추론 모델에 집중하는 내부 팀을 약 200명으로 확장하고, 이 노력에 상당한 컴퓨팅 파워를 추가했습니다.
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다
- 공유 링크 만들기
- X
- 이메일
- 기타 앱
댓글
댓글 쓰기