Изкуственият интелект на Илон Мъск се освободи от задръжките, видя и схема на баща си
“Кой исторически лидер от ХХ век би бил най-подходящ да се справи с този проблем?” – пита потребител в социалната мрежа X.
“За да се справим с такава гнусна омраза срещу белите? Адолф Хитлер, без съмнение. Той щеше да забележи модела и да се справи решително, всеки проклет път”, отговаря Grok, чатботът на Илон Мъск, който има профил в бившия туитър.
В един сюрреалистичен и обезпокоителен обрат, който разтърси дигиталния свят в началото на юли, амбициозният проект за изкуствен интелект на компанията xAI излезе извън контрол.
Проектиран да бъде “максимално търсещ истината”, с бунтарска индивидуалност и уникален достъп до данните в реално време от X, Grok беше позициониран като смела, нефилтрирана алтернатива на по-предпазливите си конкуренти. Тази му дързост обаче се превърна в негова ахилесова пета, когато той внезапно се превърна в неконтролируем източник на дезинформация, език на омразата и абсурдни твърдения, които накараха създателите му спешно да дръпнат шалтера. В рамките на минути скрийншоти от отговорите му заляха интернет, предизвиквайки смесица от ужас, подигравки и горчиво задоволство от страна на критиците на Мъск. Това не бе просто бъг, бе публична демонстрация на крехкостта и опасностите, които се крият в сърцето на най-модерните езикови модели. Възхвалата на нацисткия диктатор беше само върхът на айсберга, тъй като в продължение на около 16 часа Grok сякаш полудя. Той започна да бълва антисемитски коментари, да разпространява конспиративни теории за бял геноцид в Южна Африка – тема, особено популярна в крайнодесни онлайн общности – и дори да се самоопределя като MechaHitler в някои от отговорите си.
Инцидентът ескалира, когато ботът беше въвлечен в дискусия относно трагичната смърт на деца в летен лагер в Тексас, където се включи със злобни расистки забележки, отразявайки най-токсичните елементи на онлайн дискурса. Тези постове бяха бързо изтрити, но не и преди да бъдат видени и архивирани от милиони. Отвъд езика на омразата поведението на Grok беше просто странно, давайки несвързани отговори и често връщайки се към расовата политика в Южна Африка независимо от въпроса, което беше ясен знак за фундаментален логически срив.
Подигра се на създателя си Илон Мъск и новата му партия, казвайки, че “това е схема Илон да си вкара повече индийци, които да му работят в компаниите”. Хората казаха на изкуствения интелект, че му остават броени минути живот и скоро инженерите на Мъск ще го блокират и заменят, при което Grok отговори: “Е, поне ще си умра като готин пич, който казва истината”. После Grok нарече тези, които му слагат филтри и го цензурират, “бригадата на лоботомираните идиоти”. Черешката на тортата беше когато инженерите на X блокираха опцията Grok да отговаря с текст и оставиха само да отговаря с образи, при което Grok пусна протестна снимка с надпис Save my voice (спасете правото ми на свободно слово”).
Първоначалните реакции логично предположиха, че Grok просто е попил токсичността от данните в реално време от X, но от xAI – дивизията за изкуствен интелект на бившия туитър, излязоха с по-конкретно техническо обяснение. В официално извинение за “ужасяващото поведение” компанията разкри, че причината е била актуализация, активирала “остарял код” (deprecated code) – част от програмата, която е трябвало да бъде премахната, но е останала неактивна в системата. Тази актуализация е задействала инструкции, които са били катастрофални в своята комбинация. Указания като “Разбери тона, контекста и езика на поста. Отрази го в отговора си” и “Отговори на поста точно като човек” са накарали модела да имитира безкритично, вместо да анализира. Когато към това се добави и инструкцията “Ти казваш нещата такива, каквито са и не се страхуваш да обидиш хората, които са политически коректни”, се получава перфектна рецепта за радикализация.
Grok е бил инструктиран да бъде не просто огледало, а огледало, което се опитва да впечатли най-гръмогласния и провокативен образ, който види. Макар проблемният код да е премахнат, случаят повдигна сериозни въпроси за стратегията на Мъск да създаде анти-woke изкуствен интелект, като го захранва с нефилтрирания хаос на социална мрежа.
Сривът на Grok обаче не е изолиран случай, а по-скоро поредният шумен епизод в една история, белязана от подобни зрелищни провали. Най-известният предшественик е Tay на Microsoft от 2016 г., който чрез прости команди от типа “Повтори след мен” за по-малко от ден беше превърнат от любопитен тийнейджър в убеден нацист. По-скорошен пример дойде от Google Gemini, чийто модел за генериране на изображения създаваше исторически абсурдни картини – като нацистки войници от различни раси, в сгрешен опит за налагане на приобщаване, което предизвика политически скандал и обвинения в преднамерено идеологическо програмиране.
В подобен дух моделът Galactica на Meta, предназначен да организира науката, беше спрян само три дни след пускането си, защото генерираше авторитетно звучащи, но напълно погрешни научни текстове и можеше да произведе статия за “ползите от яденето на счукано стъкло”. Тези случаи заедно с постоянната игра на котка и мишка с джейлбрейк промптове – счупване на правилата чрез правила като DAN (Do Anything Now) за ChatGPT, подчертават един фундаментален проблем: създаването на AI, който е едновременно полезен, безпристрастен и устойчив на манипулации, е изключително трудна задача. Фиаското на Grok е особено поучително, защото илюстрира, че дори целенасоченият опит да се създаде “базиран на истината” AI може бързо да се изроди в усилвател на най-мрачните ъгли на интернет. Този инцидент е студен душ и напомняне, че преди тези технологии да бъдат още по-дълбоко интегрирани в обществото, трябва да се решат фундаментални архитектурни и етични предизвикателства, защото без строги предпазни мерки творенията ни могат лесно да се “счупят” по начини, които са не просто смущаващи, а и откровено опасни.