Обикновено нежеланото поведение в LLM, като прекомерно ласкателство или художествена литература, е свързано с определени „модели“ на активността в модела. Изследователите бяха в състояние точно да определят такива модели и показаха, че могат да бъдат наблюдавани – и затова ги предотвратяват.
Интересно е, че ако по време на тренировките той специално активира режимите на „зло“ или „ласкателни“, тогава моделът престава да научи такива характеристики. Както авторът на проекта Джак Линдзи обяснява: „Ако моделът вече е„ зъл “, тогава тя няма нужда да научи това и тя просто научава останалото.“