Meta потрапила у скандал через маніпуляції з результатами тестів нових моделей штучного інтелекту

Нові моделі штучного інтелекту Llama 4 від Meta, включаючи легку Scout та середньоформатну Maverick, які за заявами компанії перевершують GPT-4o та Gemini 2.0 Flash у популярних тестах, стали об’єктом скандалу через маніпуляції з результатами тестування. Як з’ясувалося, для реклами публічної версії моделі була використана статистика експериментальної версії, недоступної для широкої аудиторії, що викликало обурення серед користувачів та аналітиків.

У пресрелізі Meta було зазначено, що модель Maverick посіла друге місце за рейтингом ELO (1417 балів), перевершуючи GPT-4o від OpenAI і наближаючись до Gemini 2.5 Pro. Ці результати спочатку виглядали вражаючими та сприяли позитивному іміджу нових моделей. Однак користувачі платформи LMArena, де порівнюють різні моделі штучного інтелекту, швидко помітили, що в документації Meta була вказівка на те, що тестувалась не публічна версія моделі, а спеціально налаштована експериментальна версія, створена для оптимізації результатів у чатах.

Meta не відразу розкрила, що для тестування було використано кастомізовану версію Llama-4-Maverick-03-26-Experimental. Після того, як ця інформація стала відома, компанія підтвердила, що статистика, використана для реклами, не відображає реальних характеристик публічної версії моделей, доступної для користувачів. Це викликало критику з боку спільноти, яка вважає такі маніпуляції недопустимими.

Керівництво LMArena в свою чергу звинуватило Meta в тому, що компанія не дотрималась стандартів чесного тестування, що підірвало довіру до їхньої платформи як індикатора реальної продуктивності моделей ШІ. У відповідь на скандал, LMArena вже оголосила про намір змінити свої правила, щоб уникнути подібних ситуацій у майбутньому. Вони зазначили, що постачальники, які можуть надати спеціально оптимізовані версії своїх моделей для тестування, а потім випускати інші публічні версії, порушують прозорість і об’єктивність тестування.

Поділитися:

АКТУАЛЬНО

ЦІКАВЕ ЗА ТЕМОЮ
У ФОКУСІ

Фінляндія долучається до патрульної місії НАТО в Балтійському морі

Фінляндія оголосила про відправку військових кораблів до Балтійського моря для участі в операціях НАТО, спрямованих на забезпечення регіональної безпеки та захист критично важливої підводної інфраструктури. Як повідомляється на сайті Військово-морських сил країни, це є частиною місії Альянсу «Балтійський вартовий» (Baltic Sentry). Фінські ВМС розширюють свою активність у Балтійському морі в межах посиленої діяльності НАТО із […]

Північна Корея терміново шукає ліки за кордоном для Кім Чен Ина

Північнокорейський лідер Кім Чен Ин наразі переживає серйозні проблеми зі здоров’ям, що стало причиною термінового пошуку медичних препаратів за кордоном. Джерела повідомляють, що високопосадовці Північної Кореї активно займаються пошуком необхідних ліків для Кім Чен Ина, які не вдалося знайти в межах країни. Про це повідомляє АР. Кім Чен Ин, який має ознаки високого тиску та діабету […]

Російський паспорт забудовника Вагіфа Алієва не заважає йому вести бізнес в Україні

Україна, захищаючи свою національну безпеку, почала процес націоналізації російських активів. На очах у всіх проходять захопливі події з торговими центрами, такими як “Гулівер” і Ocean Plaza. Але, схоже, є один гравець, який примудрився залишитися в тіні — Вагіф Алієв, забудовник, який, за чутками, має російський паспорт і неабиякий хист до ведення бізнесу в Україні. Алієв […]

Саудівська Аравія буде домом для найвищих, найдовших та найшвидших американських гірок у світі

У жовтні 2024 року в Саудівській Аравії відкриють найвищі, найдовші та найшвидші американські гірки у світі. Атракціон під назвою Falcon Flight (Політ Сокола) буде розташований у новому тематичному парку Six Flags Qiddiya, який розташований неподалік від Ер-Ріяда. Вагони атракціону “падатимуть” з висоти 195 метрів та розганятимуться до швидкості 251 км/год. Наразі рекордсменом серед американських атракціонів […]

Верховна Рада продовжить воєнний стан до травня 2025 року

Верховна Рада України готується до чергового продовження воєнного стану та загальної мобілізації в країні. Згідно з анонсами, ці заходи будуть продовжені ще на 90 днів — до 9 травня 2025 року. Президент України має внести до парламенту два законопроєкти для затвердження своїх указів про продовження воєнного стану та мобілізації. Згідно з інформацією від народного депутата […]

Столиця Зімбабве на грані кризи: надзвичайний стан через швидке поширення холери

Столиця Зімбабве, Хараре, оголосила надзвичайний стан через стрімке поширення холери. За даними Міністерства охорони здоров’я, наразі 7 398 людей підозрюють у зараженні холерою, 109 з них госпіталізовані, а 50 вже померли від цієї хвороби. Місцеві влади стверджують, що ситуація нагадує спалах холери, що відбувся в 2008 році, коли загинуло 4 тисячі людей, а хворих було […]

Як атака ЗСУ вплинула на відносини з США?

Останні події в Курській області спричинили дипломатичну кризу між Україною та США, оскільки ЗСУ використали американське озброєння без узгодження, повідомляє The New York Times. Київ показав, що здатен діяти автономно, навіть без дозволу західних партнерів.Атаки змусили РФ перекидати резерви, послаблюючи її позиції на інших ділянках фронту. Вашингтон раніше чітко давав зрозуміти, що його зброя не […]

Потепління змінює карту спеки

Глобальне потепління не лише посилює інтенсивність теплових хвиль, але й змінює їхню географію. Нове дослідження, що найближчим часом буде опубліковане в журналі Nature Climate Change, показало: у північних середніх широтах гарячі точки спеки поступово зміщуються на захід. Причиною цього вчені називають посилення взаємодії між поверхнею ґрунту та атмосферою. Починаючи з кінця 1990-х років, теплові хвилі […]