Суперечки навколо AI 456

Суперечки навколо AI: як ігри ‘Pokémon’ виявляють недоліки в тестах моделей AI

Вимірювання прогресу штучного інтелекту стає складнішим, як показує бенчмаркінг “Pokémon”

Нещодавня вірусна публікація на X стверджувала, що Google Gemini AI перевершив модель Anthropic Claude під час гри в початкову трилогію ігор “Pokémon”. Gemini нібито вже дійшов до Лавандер Таун під час потоку на Twitch, тоді як Claude все ще пробивався через гору Мун у лютому. Але це лише частина історії.

Бенчмаркінг AI під ударом: Ігри “Pokémon” виявляють тріщини в порівнянні моделей

Попри те, що ця сенсаційна заява привернула увагу, вона свідомо опустила важливу деталь: у Gemini був козир в рукаві. За словами користувачів Reddit, розробник, котрий керував потоком Gemini, реалізував власну міні-карту. Цей винахідливий додаток дозволив чат-боту виявити важливі елементи гри, такі як дерева, які можна зрізати, без використання лише аналізу скріншотів.

На жаль, Anthropic’s Claude відстає через відсутність подібних прискорень. Без таких допоміжних засобів, еволюція гри Claude була повністю справою декодування сирих зображень — значно складніша задача.

За даними TechCrunch, ця розбіжність вказує на зростаючу проблему в бенчмаркінгу AI: ненадійні тестові середовища, які спотворюють метрики продуктивності. Хоча “Pokémon” не є серйозним бенчмарком для тестування AI, це веселий, хоча і недосконалий приклад демонстрації продуктивності та вибору AI. Проте він також вказує на те, наскільки сприйнятливі результати бенчмаркінгу до модифікацій впровадження.

Очевидно, що такі підроблені бенчмарки замилюють різницю між справжньою продуктивністю моделей та мудрою оптимізацією. Прогнозують, що все більше компаній будуть змушені розробляти більш відкриті та стандартизовані методи бенчмаркінгу — або ризикують вводити в оману споживачів, інвесторів та дослідників.

Схожі записи