Привіт! ��
Ось вже й пʼятниця, готовий до вихідних? ��
Google щойно представили Gemma 2 2B, легку ШІ модель з 2 мільярдами параметрів, яка перевершує набагато більші моделі, такі як GPT-3.5 та Mixtral 8x7B, за основними показниками.
Що відомо?
- Gemma 2 2B має лише 2,6 мільярда параметрів, але була навчена на масивному наборі даних з 2 трильйонів токенів.
- Вона набирає 1130 балів на LMSYS Chatbot Arena*, що відповідає GPT-3.5-Turbo-0613 (1117) та Mixtral-8x7b (1114) — моделям, які в 10 разів більші за неї.
- Інші примітні ключові показники включають 56,1 на MMLU* та 36,6 на MBPP*, що на понад 10% перевершує її попередницю.
- Модель є відкритим кодом, і розробники можуть завантажити ваги моделі зі сторінки Google.
Чому це важливо?
Оскільки ми входимо в нову еру локального ШІ на пристроях, легкі та ефективні моделі є критично важливими для запуску ШІ безпосередньо на наших телефонах та ноутбуках. З Gemma 2, яка перевершує GPT-3.5 Turbo при розмірі всього 1/10, Google не просто показує, що це можливо, а ще й закріплюють свою позицію як лідера в ніші малих моделей.
*LMSYS Chatbot Arena: платформа для оцінки великих мовних моделей через попарні порівняння в реальних сценаріях використання.
*MMLU (Massive Multitask Language Understanding): тест для оцінки здібностей мовних моделей, що охоплює 57 академічних предметів.
*MBPP (Mostly Basic Python Problems): набір даних з близько 1000 базових задач з програмування на Python для оцінки здатності моделей генерувати код.