Meta потрапила у скандал через маніпуляції з результатами тестів нових моделей штучного інтелекту

Нові моделі штучного інтелекту Llama 4 від Meta, включаючи легку Scout та середньоформатну Maverick, які за заявами компанії перевершують GPT-4o та Gemini 2.0 Flash у популярних тестах, стали об’єктом скандалу через маніпуляції з результатами тестування. Як з’ясувалося, для реклами публічної версії моделі була використана статистика експериментальної версії, недоступної для широкої аудиторії, що викликало обурення серед користувачів та аналітиків.

У пресрелізі Meta було зазначено, що модель Maverick посіла друге місце за рейтингом ELO (1417 балів), перевершуючи GPT-4o від OpenAI і наближаючись до Gemini 2.5 Pro. Ці результати спочатку виглядали вражаючими та сприяли позитивному іміджу нових моделей. Однак користувачі платформи LMArena, де порівнюють різні моделі штучного інтелекту, швидко помітили, що в документації Meta була вказівка на те, що тестувалась не публічна версія моделі, а спеціально налаштована експериментальна версія, створена для оптимізації результатів у чатах.

Meta не відразу розкрила, що для тестування було використано кастомізовану версію Llama-4-Maverick-03-26-Experimental. Після того, як ця інформація стала відома, компанія підтвердила, що статистика, використана для реклами, не відображає реальних характеристик публічної версії моделей, доступної для користувачів. Це викликало критику з боку спільноти, яка вважає такі маніпуляції недопустимими.

Керівництво LMArena в свою чергу звинуватило Meta в тому, що компанія не дотрималась стандартів чесного тестування, що підірвало довіру до їхньої платформи як індикатора реальної продуктивності моделей ШІ. У відповідь на скандал, LMArena вже оголосила про намір змінити свої правила, щоб уникнути подібних ситуацій у майбутньому. Вони зазначили, що постачальники, які можуть надати спеціально оптимізовані версії своїх моделей для тестування, а потім випускати інші публічні версії, порушують прозорість і об’єктивність тестування.

Поділитися:

АКТУАЛЬНО

ЦІКАВЕ ЗА ТЕМОЮ
У ФОКУСІ

Сомнологи розкрили основні фактори, що призводять до розмов уві сні

За статистикою, близько одного відсотка населення Землі веде бесіди уві сні, при цьому вони цього не усвідомлюють. Раніше вважалося, що це є спробою підсвідомості виражати найчастіше думки особи. Однак нові дослідження в області сомнології опротестували цей підхід. Спеціалісти у галузі сомнології прийшли до висновку, що розмови уві сні можуть бути спровоковані безсонням, депресією та вживанням […]

Родичі Путіна здійснюють розкішні покупки на Заході, обходячи міжнародні санкції

Попри міжнародні санкції та обмеження, родичі Володимира Путіна продовжують насолоджуватися розкішним способом життя, здійснюючи розкішні покупки на Заході. За даними, отриманими від джерел, компанії, пов’язані з племінником Путіна, придбали розкішний французький вітрильник, а фірма, яка обслуговує бізнес-джет Аліни Кабаєвої, яку називають коханкою російського лідера, безперешкодно імпортує запчастини західного виробництва. Про це йдеться у розслідуванні The […]

Україна веде складні переговори з ЄС щодо доступу на ринок

Україна продовжує переговори з Європейським Союзом щодо торгових умов, зокрема квот на український експорт. Про це повідомив прем’єр-міністр Денис Шмигаль під час години запитань до уряду у Верховній Раді 6 червня. За його словами, наразі українська делегація перебуває в Брюсселі, де триває обговорення з європейськими партнерами. Він зазначив, що процес непростий і переговори, ймовірно, триватимуть […]

Демі Мур відмовилась від чисельних дублей через стан свого обличчя

Голлівудська акторка Демі Мур, яка останнім часом була відома своїми ролями в кіно та активною участю в публічному житті, змушена була зірвати зйомки через проблеми з виглядом свого обличчя. У своєму недавньому інтерв’ю Мур зізналася, що серія невдалих спроб нанесення і зняття макіяжу залишила негативний вплив на її шкіру. Актриса Демі Мур зізналася, що їй […]

80 років після Хіросіми, чому ядерна загроза залишається реальною

У липні виповнюється 80 років з моменту ядерного бомбардування Хіросіми і Нагасакі — двох японських міст, що зазнали руйнівних наслідків від єдиного на сьогодні бойового застосування ядерної зброї. Тоді загинуло понад 200 000 людей, а ті, хто вижив, отримали важкі ураження і довічні наслідки. Попри уроки історії, у 2025 році у світі все ще існує […]

Брітні Спірс порушила правила на борту літака

Американська попзірка Брітні Спірс опинилася в центрі чергового скандалу після повернення з поїздки до Мексики. Під час чартерного рейсу з Кабо-Сан-Лукас до Лос-Анджелеса співачка порушила правила поведінки на борту літака, за що отримала офіційне попередження. Як повідомляє PEOPLE із посиланням на джерела, під час перельоту на борту авіарейсу JSX Спірс вживала алкоголь та курила сигарету […]

Українці активніше купують валюту

У травні 2025 року українські банки ввезли до країни 778 мільйонів доларів готівкової іноземної валюти, що на 38% більше, ніж у квітні, коли цей показник становив 564 мільйони доларів. Про це свідчать оновлені дані Національного банку України. З цієї суми 457 мільйонів доларів припадає на готівкові долари США — це на 52% більше у порівнянні […]

Вчені попереджають про мікропластик у гарячих напоях

Нове дослідження Бірмінгемського університету показало, що одним із головних джерел мікропластику є гарячі напої. Вчені перевірили 155 популярних безалкогольних напоїв, серед яких чай, кава, енергетичні та газовані напої, і з’ясували, що найбільше мікропластикових частинок міститься у гарячому чаї та каві, особливо коли їх подають у одноразових стаканчиках. За даними дослідження, одна порція гарячого чаю з […]