
Нові моделі штучного інтелекту від Meta опинились в центрі скандалу
Для реклами публічної версії штучного інтелекту використали статистику недоступної експериментальної версії.
На вихідних Meta випустила дві нові моделі штучного інтелекту Llama 4 - легку Scout і середньоформатну Maverick, яка, за словами компанії, перевершує GPT-4o та Gemini 2.0 Flash у широкому спектрі популярних тестів. Але, як виявилося, статистика від Meta вводить користувачів в оману, повідомляє The Verge.
У пресрелізі щодо випуску моделей ШІ Meta підкреслила їхній чудовий результат у рейтингу LMArena - платформі, де користувачі порівнюють ШІ-моделі в режимі чату та голосують за найкращі. Згідно з інформацією компанії, Maverick посіла друге місце з ELO-рейтингом 1417 - вище GPT-4o від OpenAI і лише трохи позаду Gemini 2.5 Pro.
Однак користувачі помітили примітку в документації Meta, де зазначено, що тестувалася не публічна модель, а експериментальна версія, спеціально оптимізована для розмовної взаємодії. Компанія не повідомила про це одразу, а лише згодом підтвердила, що використовувався кастомізований варіант - Llama-4-Maverick-03-26-Experimental, створений для кращого враження в чаті.
У відповідь керівництво LMArena звинуватило Meta в тому, що вона не відповідає їхнім очікуванням від постачальників ШІ-моделей, і вже почали оновлювати свої правила, щоб уникнути подібних ситуацій у майбутньому. У компанії вважають, що коли постачальники можуть надавати спеціально налаштовані версії своїх моделей для тестування, одночасно випускаючи зовсім інші для громадськості, такі рейтинги, як LMArena, стають менш вагомими як індикатори реальної продуктивності.
Нагадаємо, раніше повідомлялося, що новий тест для штучного інтелекту не проходить жодна модель ШІ.
Cloudflare створила ШІ для обману ботів, що збирають інформацію для ШІ
Новини від Корреспондент.net в Telegram та WhatsApp. Підписуйтесь на наші канали https://t.me/korrespondentnet та WhatsApp