Изкуственият интелект (AI) често се изобразява в научната фантастика като система, която, стреляща се към целта, излиза извън контрол. Но колко реални са подобни сценарии в реалния живот? Как учените предотвратяват неуспехите в AI системите, така че да работят безопасно и предвидимо? Никита Любайкин, изследовател на научната група „Адаптивни агенти“ на Института Ари, разказа как експертите се справят с тези задачи.
Проблемът, който в научните кръгове нарича „хакване на награди“ се дължи на факта, че AI може да намери неочаквани начини да постигне целта, която не съответства на очакванията на разработчиците. Например, ако е инструктиран робот да постави куб на определено място на масата, той може да премести самата маса, а не куб. Това не е „лудо“ в човешкия смисъл, а по -скоро грешка в формулирането на задачата. За да избегнат подобни ситуации, учените внимателно конфигурират системата за възнаграждения, която насочва действията на AI. В допълнение, има безопасна RL посока, при която се разработват алгоритми, които не само максимално увеличават резултата, но и наблюдават строги рамки за сигурност. Такива технологии се използват в автономни превозни средства, индустриални системи за автоматизация и препоръки.
Терминът „полудява“ по отношение на алгоритъма на RL е някакъв антропоморфизъм и в този контекст той е по-свързан с проблема с „наградата“, в който алгоритъмът постига високи абсолютни награди, без да извършва полезни (или очаквани) действия.
Никита Любайкин
Изследователският инженер на научната група „Адаптивни агенти“ на Института Айри
Друга трудност в работата на AI е балансът между изучаването на новите възможности и използването на вече доказани решения. Представете си, че сте избрали ресторант: Отидете на познато място с гарантирана вкусна храна или рискувайте и опитайте ново? AI е изправен пред подобна дилема: да продължи да използва добре известна стратегия или да експериментира с нови, които могат да бъдат както по -добри, така и по -лоши. За да решат този проблем, учените използват различни подходи. Например, методът ε-сърдечни средства позволява на AI понякога да избира случайни действия, за да „опитате нещо ново“. Друг подход са алгоритмите, които едновременно увеличават наградата и правят AI действията по -разнообразни.
Един от най -ефективните онлайн алгоритми на RL – SAC – е изграден около тази идея.
Никита Любайкин
Изследователският инженер на научната група „Адаптивни агенти“ на Института Айри
Има и методи, които мотивират AI да изследва неизвестни области, насърчавайки го за нови действия.
Прехвърлянето на AI от симулации в реалния свят е друг сериозен проблем. В игрите, като шах или TH, симулациите са идеални, но реалният свят е сложен и непредсказуем. Например, робот, обучен в симулатор, се движи по равна повърхност, може да не се справи с истински неравен път. За да преодолеят този проблем, учените използват метода за рандомизация на домейна. Вместо фиксирани параметри, като триене или гравитация, в симулацията те задават своите случайни вариации. Това помага на AI да се адаптира към реалните условия. Друг начин е да научите реални данни. Отначало AI проучвания в симулация и след това се коригират въз основа на реални тестове, което е по -евтино от тренировките от нулата в реалния свят.
Проблемите могат да възникнат, когато искаме да симулираме сложни физически процеси (които често не могат да бъдат имитирани с абсолютна точност, например, за да научим роботите на задачите на локомоция в симулатора, който е много по -евтин, отколкото в реалния свят, и да използва получените агенти на истински роботи.
Никита Любайкин
Изследователският инженер на научната група „Адаптивни агенти“ на Института Айри
Тези подходи помагат да се направи AI по -надежден и по -безопасен. Учените продължават да работят, за да гарантират, че AI системите не само ефективно изпълняват задачи, но и остават под контрол при най -трудните и непредвидими условия.