Един от основните проблеми при създаването на ИИ в тесни райони, като медицина или съдебна практика, е необходим в голямо количество внимателно маркирани данни. Обучението им изисква или участието на квалифицирани специалисти, което е скъпи или значителни изчислителни ресурси при използване на големи езикови модели.
Новият метод ви позволява да започнете да тренирате с ограничен набор от вече маркирани данни, след което моделът независимо избира какви допълнителни примери ще му помогнат да подобри точността. Това дава възможност да се намали количеството на необходимото маркиране два до четири пъти без загуба в резултат.
Изследователите тестваха технологията на четири популярни задачи – генериране на отговори, решаване на логически проблеми, разбиране на текста и създаване на кратко възобновяване. Резултатите показаха, че моделът, който използва нов подход, показва сравнимо качество с методи за произволно подбор, но изисква около три пъти по -малко от маркираните данни.
Инструментите, прилагащи този метод, са публикувани в отворен достъп. Специалисти от T-Technologies, Институтът Airi, HSE, Innopolis и Sberbank участваха в развитието.