Ілон Маск сьогодні провів потужну презентацію Grok 4 — нової версії своєї мовної моделі, яку він назвав найбільш потужною серед існуючих за результатами ключових тестів.
Вона перевершила очікування навіть скептиків, показавши значну перевагу над конкурентами не на кілька відсотків, а з суттєвим відривом.
Команда помітно збільшила обчислювальні потужності: у 10 разів більше ресурсів порівняно з Grok 2 для навчання базової моделі і ще у 10 разів більше для підкріплювального навчання (reinforcement learning) порівняно з Grok 3.
Особливий акцент зробили на результатах у надзвичайно складному тесті «Останній Екзамен Людства», створеному понад тисячею експертів із 500 наукових установ у десятках країн світу. Цей тест охоплює широкий спектр дисциплін — від точних наук та мовознавства (включно з давніми мовами) до складного програмування. За словами Маска, навіть знайти людину, яка б змогла вирішити хоча б 5% завдань зі своєї вузької спеціалізації, — вже проблема. А універсальний рівень, що поєднує знання десятків дисциплін на рівні PhD і вище — практично недосяжний для людини.
Маск наголосив, що ми знаходимося на траєкторії, коли моделі штучного інтелекту перевершують людей у будь-яких тестах, де питання та відповіді формулюють люди. Наступним кроком стане навчання ШІ не на основі людського фідбеку, а через саму реальність: наприклад, при проєктуванні нового двигуна результатом стане не абстрактна оцінка, а реальна працездатність.
Introducing Grok 4, the world’s most powerful AI model. Watch the livestream now: https://t.co/59iDX5s2ck
— xAI (@xai) July 10, 2025
Маск визнав, що темпи розвитку ШІ його навіть лякають. Він вважає, що вже цього року або максимум наступного штучний інтелект зможе пропонувати нові прикладні інженерні рішення на основі відомих фізичних принципів. А вже наступного року — робити справжні наукові відкриття, відкриваючи «нову фізику» з нуля.
Ще один важливий момент — за словами Маска, Grok 4 уже є «суперінтелектом» у межах академічних знань (усе, що є у текстах і відомо людству). Наступна мета — створення принципово нових рішень.
Цікавою деталлю презентації стали результати Grok 4 на «Останньому Екзамені Людства»:
-
Базова модель без інструментів досягла 27%, тоді як конкуренти (OpenAI o3, Google Gemini 2.5 Pro) — 20–21%.
-
З інструментами (пошук в інтернеті, виконання коротких програм для обчислень) результат перевищив 40%, попри те що самі інструменти наразі доволі прості.
Маск анонсував, що для Grok планують інтегрувати значно потужніші інженерні інструменти — ті самі, які використовують у Tesla та SpaceX. Ці системи настільки точно моделюють фізичні процеси, що різницю між експериментом і симуляцією зазвичай списують на помилки експерименту.
Видно, що стратегія розвитку Grok зосереджена на кількох ключових напрямках:
-
Ідеологія
-
Пошук об’єктивної правди без цензури.
-
Орієнтація на факти, а не політичну чи ідеологічну кон’юнктуру.
-
Маск стверджує, що це навіть питання виживання людства зі ШІ: штучний інтелект, що вміє брехати заради ідеологій, — серйозна загроза.
-
-
Практичність
-
Фокус на точних науках, складних наукових та інженерних завданнях.
-
Прогрес у вирішенні найскладніших тестів на кшталт «Останнього Екзамену Людства».
-
Крім того, презентували «Grok Heavy» — систему, що реалізує багатоагентний підхід. Раніше такі підходи працювали за принципом більшості (majority vote), але команда Grok заявила про оригінальну методику вибору правильного результату навіть від одного агента. Ця техніка вже дала 51% (!) у «Останньому Екзамені Людства» — результат, який раніше прогнозували досягти не раніше кінця 2025-го.
Grok Heavy вже доступний у найдорожчій підписці ($300 на місяць), рекомендованій для вирішення найскладніших інженерних та наукових задач.
Інші важливі моменти:
-
У задачах Математичної Олімпіади США 2025 року Grok вирішує 100% завдань, хоча ще кілька років тому моделі не могли впоратися жодною. Для порівняння: серед студентів США тільки одиниці здатні вирішити всі задачі олімпіади.
-
Слабким місцем Grok поки залишається обробка зображень, де він відстає від конкурентів (o3, Gemini). Маск визнає це і обіцяє швидке покращення.
Заплановані оновлення на найближчі місяці
-
Серпень 2025: новий агент для генерації коду.
-
Вересень 2025: нова мультимодальна модель для кращого аналізу зображень.
-
Жовтень 2025: модель для розуміння та створення відео — з опорою на величезні масиви реальних даних Tesla (відео, фото), що особливо важливо для робототехніки.
Також продемонстрували вдосконалений голосовий інтерфейс Grok із живими інтонаціями, шепотом, сміхом і навіть співом. Він звучить більш природно та швидко реагує порівняно з конкурентами. З сьогоднішнього дня модель доступна через API — і вже тестується у додатках, де потрібна високорівнева інтелектуальна підтримка.
Це справді виглядає як перший крок до світанку суперінтелекту.