DeepMind представила маленькую нейросеть для генерации текста

ИИ, названный RETRO (от «Retrieval-Enhanced Transformer»), указывает такую же производительность, как у нейронных сетей в 25 раз большего размера, сокращая время и издержки, нужные для обучения весьма огромных моделей.
ИИ владеет широкой базой данных, которую употребляет как шпаргалку при генерации предложений.

Практически любая большая IT-компания выпустила свою свою языковую модель — между тем, с момента выпуска GPT-3 прошло всего два года.

В базе языковых моделей лежит огромное количество нейронных сетей, и они демонстрируют изумительную способность машин использовать язык —, но так же они требуют весьма огромную вычислительную мощность.

Языковые модели генерируют текст, предсказывая, какие слова будут последующими в предложении либо разговоре.
Чем больше модель, тем больше инфы о мире она может выяснить в процессе обучения, что делает ее пророчества наиболее точными.
К примеру, GPT-3 имеет 175 млрд. характеристик, которые хранят данные и корректируются по мере обучения модели.
Языковая модель Megatron-Turing от Microsoft имеет 530 млрд характеристик.
Но тут количество не постоянно перебегает в свойство — для обучения таких огромных моделей требуется большая вычислительная мощность, что влечёт за собой большие расходы.

С помощью RETRO компания DeepMind попробовала уменьшить расходы на обучение , не снижая при этом уровень обучаемости ИИ.
Исследователи научили модель на большущем наборе данных — на новостных статьях, страничках Википедии, книжках и даже текстах из онлайн-репозитория кода GitHub на 10 языках, включая российский.

При этом нейронная сеть RETRO имеет всего 7 млрд. характеристик, но это возмещается базой данных, содержащей около 2 триллионов отрывков текста.
Когда RETRO генерирует текст, она использует базу данных для поиска и сопоставления отрывков, схожих на тот, что она пишет.
Передача части памяти нейронной сети базе данных позволяет RETRO создавать больше при наименьших издержках.
Этот подход в первый раз применили для большой языковой модели.

Для сопоставления, DeepMind взяли языковую модель Gopher (280 млрд. характеристик) и сравнили её с RETRO (7 млрд характеристик).
Обнаружилось, что производительность RETRO соответствует производительности Gopher в большинстве задач.

Удобство такой нейронной сети так же заключается в том, что базу данных можно обновлять без переобучения нейронной сети — к примеру, получится просто удалить неверную либо старую информацию и добавить новую.
Это очень полезное свойство в нашем быстроменяющемся мире.

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Голосовой ассистент предложил ребёнку выполнить смертельный челлендж

Новейший искусственный интеллект поможет находить лекарства

Ютубер Джим Браунинг охотился на жуликов, но сам попал под раздачу.

Говорящая Мона Лиза. Samsung создала систему, позволяющую «оживлять» изображения

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА