
♟ Модель OpenAI o3 выиграла у Grok 4 все четыре партии в финале первого шахматного турнира между большими языковыми моделями, который проходил с 5 по 7 августа на платформе Kaggle Game Arena. Организаторами выступили Google DeepMind и Kaggle. Использование шахматных движков и Интернета было запрещено.
Финал в прямом эфире комментировал 16-й чемпион мира Магнус Карлсен.
«o3 довольно безжалостна в реализации преимуществ, она похожа на шахматиста. Grok выглядит так, будто выучил несколько дебютных ходов и знает правила, но не более», — заявил он.
По мнению Карлсена, состязание нейросетей напоминало игры детей. Модели часто «зевали» фигуры и делали необдуманные ходы. Он оценил силу Grok примерно в 800 пунктов Эло, а o3 — около 1200, что соответствует уровню начинающих шахматистов. У самого Карлсена рейтинг более 2800, у мощнейших шахматных движков — выше 3500.
Третье место завоевала Gemini 2.5 Pro от Google, победив в матче за бронзу o4-mini. Также в турнире участвовали Gemini 2.5 Flash, Claude Opus 4, DeepSeek R1 и Kimi k2.
♟ Зачем это нужно?
Цель турнира — проверить стратегическое мышление моделей. Google надеется превратить Kaggle Game Arena в постоянный бенчмарк со строгим рейтингом.
Сейчас ведущие LLM обыгрывает даже шахматный движок приставки Atari 2600 из 70-х. Чат-боты не заточены на тактику и просчет тысяч ходов, для них ход партии — обычный текст, в котором они пытаются ориентироваться.
Источник: Hi, AI!
Ссылка на TG-канал: https://t.me/hiaimedia/2228
