Большие языковые модели можно оптимизировать до 15% без потери качества

Большие языковые модели можно оптимизировать до 15% без потери качества
Учёные Сбера, лаборатории FusionBrain Института AIRI и Сколтеха обнаружили принципиально новое свойство больших языковых моделей и научились контролировать его.
Россия
Москва и Московская обл.
Москва

Учёные Сбера, лаборатории FusionBrain Института AIRI и Сколтеха обнаружили принципиально новое свойство больших языковых моделей и научились контролировать его. Это позволит оптимизировать модели-трансформеры на 10–15% без потери в качестве, экономя вычислительные мощности.

Модели с трансформерной архитектурой лежат в основе диалоговых ботов. В таких моделях множество слоёв: от входа (например, запроса «Нарисуй кота») информация доходит до выхода и преобразуется в картинку. Принято считать, что линейность слоёв –– свойство самых слабых моделей, а нелинейность — сильных, то есть тех же самых трансформеров. Линейность обеспечивает простоту и эффективность в вычислениях, но при этом модель не может решать сложные задачи, такие как выучивать необычные закономерности в данных.

Исследователи изучили устройство 20 известных opensource языковых моделей по типу декодера и выяснили, что между эмбеддингами (числовые представления данных) есть высокая линейная зависимость. Соответственно, при переходе от слоя к слою информация не претерпевает нелинейных преобразований, и сложную архитектуру трансформера можно заменить намного более лёгкими слоями нейросети.

Чтобы избежать проявления негативных свойств линейности во время предобучения и улучшить метрики качества модели, специалисты разработали специальный регуляризатор. Это позволило заменить сложные блоки слоёв модели на более простые. В ходе экспериментов выяснилось, что облегчать без потери качества можно от 10 до 15% слоёв.

Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка:

«Одним из вызовов развития AI-технологий, в особенности больших языковых моделей (представителей ветки GenAI), остаётся потребность в вычислительных ресурсах для обучения следующего поколения SOTA-моделей. В основе большинства архитектур GenAI лежат блоки трансформеров, и в опубликованной работе выявлена линейность в некоторых представлениях данных внутри этих блоков. Как следствие, это позволяет существенно оптимизировать архитектуры с точки зрения вычислительных мощностей, снизить нагрузку, получить результат за меньшее время за счёт адаптивной регуляризации. Потенциал сокращения вычислительных ресурсов на обучении оценивается в порядке до 10%. Мы, в Сбере, планируем провести тестирование рассмотренной идеи и в случае успеха — тиражировать её на флагманские модели GenAI. Поиск таких смекалок в AI-архитектурах позволяет частично компенсировать вычислительный голод, поэтому продолжим поддержку таких исследований в направлении обучения больших моделей».

Иван Оселедец, д. ф.-м. н., СЕО Института AIRI, профессор Сколтеха:

«Нам удалось изучить модели под микроскопом, простыми средствами описать сложные процессы внутри трансформеров и сразу предложить эффективный регуляризатор. Мы уже всё проверили на маленьких моделях, проверки на больших моделях и обучении — впереди. Обнаруженный эффект кажется очень контринтуитивным, он противоречит многим представлениям о глубоком обучении. В то же время именно он позволяет тратить меньше вычислительных ресурсов на развёртку и инференс больших языковых моделей. На днях мы выложили препринт статьи, а она уже обогнала публикации от Google, Microsoft, MITи Adobeв списке статей дня на HuggingFace. Понимая важность работы для научного сообщества, мы поделились регуляризатором с коллегами и опубликовали его в открытом доступе».

Статья с результатами исследования принята к публикации на одну из наиболее престижных конференций в сфере искусственного интеллекта в мире — ACL 2024 (MainTrack, CoreA*).

10:36
1995
RSS
Нет комментариев. Ваш будет первым!

Новости

ИИ в DLP: ожидания и реальность МТС и БФ «Система» приглашают студентов принять участие в проекте «Первая стажировка» Новая корпоративная машина баз данных от «Тантор Лабс» устраняет архитектурные ограничения PostgreSQL Компания Test IT выпустила масштабное обновление системы — Test IT 5.7 Vela

ИИ в DLP: ожидания и реальность


Приглашаем на вебинар руководителей и сотрудников ИБ-подразделений из любых отраслей. 46 минут назад
ИИ в DLP: ожидания и реальность
ИИ в DLP: ожидания и реальность
МТС и БФ «Система» приглашают студентов принять участие в проекте «Первая стажировка»
МТС и БФ «Система» приглашают студентов принять участие в проекте «Первая стажировка»
Новая корпоративная машина баз данных от «Тантор Лабс» устраняет архитектурные ограничения PostgreSQL
Новая корпоративная машина баз данных от «Тантор Лабс» устраняет архитектурные ограничения PostgreSQL
Компания Test IT выпустила масштабное обновление системы — Test IT 5.7 Vela
Компания Test IT выпустила масштабное обновление системы — Test IT 5.7 Vela