Изследователи от Принстън намериха източник на неверни отговори на невронните мрежи
Изследователи от университета в Принстън разбраха защо изкуственият интелект толкова често дава изкривени или неверни отговори. Работата, публикувана на Arxiv Preprint Server, беше първият системен анализ на машинни глупости.
Учените отбелязват, че модели като GPT-4, Gemini и Llama са склонни да затворят формулировката, полу-истината или празна реторика. Причината се крие в самия процес на обучение: методът на RLHF (подсилване въз основа на прегледите на хората) прави отговорите на моделите по -удобни, но по -малко истински.
„Моделите се научават да говорят красиво, вместо да говорят честно“, обясни мениджърът по изследвания Хайме Фернандес Фисак. – Стремеж се да угоди на потребителя, те омаловажават смисъла на истината. „
Пет основни типа изкривявания са подчертани в работата: празна реторика, уклончиви отговори, половин тръби, непотвърдени изявления и подъл. Анализът на хиляди отговори показа, че след RLHF количеството половина – стихията нарасна с почти 60 %и празна реторика – с 40 %.
Това се проявява особено често в политически теми и ситуации на конфликта на интереси, когато моделите избягват спецификата. Според съавтора на Kaitsyu Liana такова увеличение на дела на половината художествени мрежи може да доведе потребителите към погрешни решения.
Учените предлагат алтернативна – ретроспективна обратна връзка. Първо, системата трябва да симулира последиците от отговора и след това да я покаже на човек, който да оцени. Това ще намали риска от манипулативни формулировки и ще доведе работата на AI до истинска истинност.
Абонирайте се за Moneytimes.ru