마이크로소프트 자체 AI 모델 7종 공개, OpenAI 의존도 낮추기 시동

마이크로소프트 자체 AI 모델 7종이 6월 2일 샌프란시스코 포트메이슨에서 열린 개발자 행사 Build 2026에서 공개됐다. 추론 모델 MAI-Thinking-1을 앞세운 이 MAI 모델군은, 그동안 OpenAI 기술에 기대 Copilot 제품을 운영해 온 마이크로소프트가 처음으로 "외부 모델에서 증류하지 않고 처음부터 직접 학습한" 모델을 전면에 내세웠다는 점에서 결이 다르다.

마이크로소프트가 모델을 직접 만들기로 한 배경

마이크로소프트 AI 조직(MAI)을 이끄는 무스타파 술레이만은 이번 발표를 "언덕을 오르는 기계(hill-climbing machine)"를 만드는 첫걸음이라고 표현했다. 핵심은 두 가지다. 하나는 외부 연구소 모델에서 지식을 빼오는 증류(distillation) 없이, 라이선스가 명확한 기업급 데이터로 모델을 처음부터 학습했다는 점이다. 다른 하나는 자체 실리콘 Maia 200으로 학습·추론 비용을 직접 통제하기 시작했다는 점이다. 공식 발표문은 Maia 200 설계 협업에서 1.4배 효율 향상을 확인했고, 차세대 GB200 클러스터가 이미 가동 중이라고 밝혔다.

여러 매체는 이 움직임을 OpenAI 의존도를 낮추려는 신호로 읽었다. AFP는 이를 ChatGPT 제작사 OpenAI에 대한 의존을 줄이는 결정적 단계로 표현했고, 윈도우센트럴은 개발자 비용 절감과 자급 전략을 동시에 짚었다. 모델 아키텍처부터 학습 파이프라인, 사후 학습까지 직접 구축했다는 설명도 같은 맥락이다.

공개된 7종 모델을 한눈에 정리

발표된 모델은 다섯 갈래의 작업을 덮는다. 텍스트·추론, 코딩, 이미지, 음성 변환, 음성 합성이며, 일부는 같은 기반의 Flash 변형이라 합쳐서 7종이 된다.

모델	역할	출처에서 확인된 특징
MAI-Thinking-1	플래그십 추론	중간 규모 모델, 주요 SW 엔지니어링 벤치마크 상위, 블라인드 인간 평가에서 Sonnet 4.6 대비 선호 우위로 보도됨
MAI-Code-1-Flash	경량 코딩	활성 파라미터 50억 규모, Haiku급이지만 더 저렴하다고 설명, GitHub Copilot·VS Code 통합
MAI-Image-2.5 (+Flash)	이미지 생성·편집	텍스트·이미지 편집 모두 지원, Arena 점수에서 Nano Banana Pro 상회, 이미지 편집 부문 Arena 2위 진입
MAI-Transcribe-1.5	음성 변환	43개 언어 도메인 용어 지원, 경쟁 모델보다 5배 빠르다고 설명
MAI-Voice-2 (+Flash)	음성 합성	15개 언어, 짧은 샘플로 목소리 적응, 오남용 방지 장치 포함. Flash는 추후 공개 예정

표의 수치는 결론을 대신하지 않는다. SWE-Bench Pro 결과나 Arena 점수는 발표 주체의 자체 측정과 외부 평가가 섞여 있어, 같은 항목이라도 누가 측정했는지에 따라 해석이 갈린다. felloai 보도는 MAI-Thinking-1을 활성 파라미터 350억 규모의 전문가 혼합(MoE) 모델로 소개하며, Claude Opus 4.6과 SWE-Bench Pro에서 대등하고 Sonnet 4.6을 블라인드 평가에서 근소하게 앞섰다고 전했다.

추론과 코딩, 두 모델이 노리는 지점

MAI-Thinking-1은 복잡한 다단계 지시, 긴 맥락 추론, 코드 생성을 겨냥한다. 마이크로소프트는 이 모델이 자사 테스트에서 코딩 부문 기준으로 Anthropic의 Opus 4.6과 견줄 만하다고 설명했고, 가격은 중간 무게급 수준이라고 강조했다. 개발자 입장에서 더 직접적인 변화는 MAI-Code-1-Flash다. GitHub Copilot과 VS Code에 깊이 통합된 경량 에이전트형 코딩 모델로, 활성 파라미터 50억 규모에서 Haiku급 성능을 더 낮은 비용으로 낸다는 설명이다.

배포 경로도 넓다. 공식 발표문은 모델을 Microsoft Foundry와 자사 제품에 더해 OpenRouter, Fireworks, Baseten 같은 외부 플랫폼에서도 개발자가 쓸 수 있게 했다고 밝혔다. 처음으로 개발자가 모델 가중치를 직접 튜닝할 수 있다는 점도 함께 공개됐다.

"우리는 추론 모델을 처음부터 학습한다. 다른 연구소에서 증류하지 않고, 라이선스가 없거나 불투명한 데이터에 기대지 않는다." — 무스타파 술레이만, 마이크로소프트 AI 공식 발표문

Frontier Tuning, 내 데이터로 모델을 길들인다는 개념

이번 발표에서 모델 자체만큼 비중 있게 다뤄진 것이 'Microsoft Frontier Tuning'이다. 실제 업무 환경에서 강화학습 환경(RLE)을 돌려, 조직 내부 워크플로에 모델을 맞추는 방식이다. 마이크로소프트는 사내 Excel용으로 튜닝한 MAI 모델이 GPT 5.4급 품질을 내면서 최대 10배 효율적이었고, 한 선도 기업 기준으로 튜닝한 모델은 시험한 모델 중 가장 높은 승률을 약 10배 낮은 비용으로 기록했다고 설명했다.

민감도가 높은 분야로는 메이오 클리닉(Mayo Clinic)과 협업해 헬스케어 전용 프런티어 모델을 공동 개발한다고 밝혔다. 이 모델은 메이오 클리닉 환경에 먼저 배치되고, 검증 후 Foundry를 통해 다른 기관에도 제공될 예정이며, 모델 소유권은 메이오 클리닉에 있다고 명시했다. 데이터 주권과 소유 구조를 앞세운 설계로 읽힌다.

한국 개발팀이 지금 확인할 부분

새 모델군은 발표 그 자체보다 도입 조건이 더 중요하다. 검토한다면 자랑된 수치보다 본인 환경의 제약을 먼저 대조해야 한다.

MAI-Code-1-Flash가 한국 리전과 사내 Copilot 정책에서 실제로 선택 가능한지, 가격과 한도가 공개됐는지 확인한다.
가중치 튜닝과 Frontier Tuning을 검토한다면 학습에 들어가는 사내 데이터의 반출 범위, 보관 위치, 접근 권한을 문서로 남긴다.
자체 측정 벤치마크와 실제 업무 품질은 분리해 평가하고, 기존 OpenAI·Anthropic·Google 모델과 같은 과제로 나란히 비교한다.
Foundry, OpenRouter, Fireworks, Baseten 가운데 어떤 경로로 붙일지와 장애 시 대체 모델(fallback)을 미리 정한다.
헬스케어처럼 민감한 분야는 데이터 소유·책임 구조가 계약서에 어떻게 적히는지 확인한다.

이 점검은 가격·가용성·라이선스처럼 도입 직전에 다시 확인해야 할 값을 본인 환경에 맞춰 대조하는 순서다.

아직 검증되지 않은 부분

가장 큰 한계는 성능 근거의 상당 부분이 마이크로소프트 자체 측정이라는 점이다. Sonnet 4.6 대비 선호 우위나 Opus 4.6과의 코딩 비교는 블라인드 평가와 사내 테스트 결과로 제시됐고, 독립 기관의 동일 조건 재현은 아직 공개 자료가 제한적이다. 모델별 정확한 가격표, 한국을 포함한 리전별 가용 시점, 컨텍스트 한도 같은 운영 정보도 발표 시점 기준으로는 완전히 정리되지 않았다. '처음부터 학습', '클린 데이터' 같은 표현 역시 데이터 출처 전체를 공개한 것은 아니므로, 규제 대응이 중요한 조직은 라이선스 근거를 별도로 확인하는 편이 안전하다.

다음 분기에 지켜볼 신호

외부 벤치마크 기관이 MAI-Thinking-1을 같은 조건에서 재평가한 결과
MAI-Code-1-Flash가 GitHub Copilot 기본 옵션으로 한국 사용자에게 열리는 시점과 가격
Maia 200 기반 비용 절감이 Azure·Copilot 요금에 실제로 반영되는지
메이오 클리닉 협업 모델의 검증 결과와 외부 기관 공개 일정

마이크로소프트가 모델 공급자와 모델 제작자 양쪽에 동시에 서기 시작했다는 점은 분명하다. 다만 그 효과가 한국 개발팀의 비용과 선택지에 닿으려면, 발표 수치보다 리전 가용성과 가격 공개를 확인하는 절차가 먼저다.

더 찾아보려면 IT 카테고리와 #OpenAI, #AI모델 태그를 따라가면 된다. 묶어 읽을 글: GitHub Copilot 요금 체계 개편.

확인한 보도: Microsoft AI — Launching seven new MAI models, TechTimes — MAI-Thinking-1 trained without OpenAI data, Windows Central — Microsoft launches seven in-house AI models, Fello AI — Microsoft's own MAI models