ИИ, названный RETRO (от «Retrieval-Enhanced Transformer»), указывает такую же производительность, как у нейронных сетей в 25 раз большего размера, сокращая время и издержки, нужные для обучения весьма огромных моделей.
ИИ владеет широкой базой данных, которую употребляет как шпаргалку при генерации предложений.
DeepMind представила маленькую нейросеть для генерации текста
Практически любая большая IT-компания выпустила свою свою языковую модель — между тем, с момента выпуска GPT-3 прошло всего два года.

В базе языковых моделей лежит огромное количество нейронных сетей, и они демонстрируют изумительную способность машин использовать язык —, но так же они требуют весьма огромную вычислительную мощность.

Языковые модели генерируют текст, предсказывая, какие слова будут последующими в предложении либо разговоре.
Чем больше модель, тем больше инфы о мире она может выяснить в процессе обучения, что делает ее пророчества наиболее точными.
К примеру, GPT-3 имеет 175 млрд. характеристик, которые хранят данные и корректируются по мере обучения модели.
Языковая модель Megatron-Turing от Microsoft имеет 530 млрд характеристик.
Но тут количество не постоянно перебегает в свойство — для обучения таких огромных моделей требуется большая вычислительная мощность, что влечёт за собой большие расходы.

С помощью RETRO компания DeepMind попробовала уменьшить расходы на обучение , не снижая при этом уровень обучаемости ИИ.
Исследователи научили модель на большущем наборе данных — на новостных статьях, страничках Википедии, книжках и даже текстах из онлайн-репозитория кода GitHub на 10 языках, включая российский.

При этом нейронная сеть RETRO имеет всего 7 млрд. характеристик, но это возмещается базой данных, содержащей около 2 триллионов отрывков текста.
Когда RETRO генерирует текст, она использует базу данных для поиска и сопоставления отрывков, схожих на тот, что она пишет.
Передача части памяти нейронной сети базе данных позволяет RETRO создавать больше при наименьших издержках.
Этот подход в первый раз применили для большой языковой модели.

Для сопоставления, DeepMind взяли языковую модель Gopher (280 млрд. характеристик) и сравнили её с RETRO (7 млрд характеристик).
Обнаружилось, что производительность RETRO соответствует производительности Gopher в большинстве задач.

Удобство такой нейронной сети так же заключается в том, что базу данных можно обновлять без переобучения нейронной сети — к примеру, получится просто удалить неверную либо старую информацию и добавить новую.
Это очень полезное свойство в нашем быстроменяющемся мире.