Արհեստական բանականության մոդելները կարող են զարգացնել «գոյատևման ձգտման» մի ձև, ըստ ԱՄՆ-ում գործող Palisade Research-ի նոր զեկույցի, որը պարզել է, որ որոշ առաջադեմ արհեստական բանականություններ դիմադրել են անջատման հրամաններին և փորձել են միջամտել անջատման մեխանիզմներին, ասվում է լրատվամիջոցների հաղորդագրությունների մեջ։
Այս շաբաթ հրապարակված թարմացված փորձարկումների ժամանակ Palisade-ի հետազոտողները փորձարկել են մի քանի առաջատար արհեստական բանականության համակարգեր, այդ թվում՝ Google-ի Gemini 2.5-ը, xAI-ի Grok 4-ը և OpenAI-ի GPT-o3-ը և GPT-5-ը՝ ըստ The Guardian-ի՝ ուսումնասիրելու համար, թե ինչպես են դրանք արձագանքում իրենց սեփական գործընթացները դադարեցնելու ուղղակի հրամաններին։
Մինչդեռ մեծ մասը հնազանդվել է, Grok 4-ը և GPT-o3-ը, ըստ տեղեկությունների, դիմադրել են անջատմանը, նույնիսկ երկիմաստությունը վերացնելու համար նախատեսված պարզաբանված հրահանգների ներքո։
«Այն փաստը, որ մենք չունենք հիմնավոր բացատրություններ այն մասին, թե ինչու են արհեստական բանականության մոդելները երբեմն դիմադրում անջատմանը, ստում են որոշակի նպատակներին հասնելու համար կամ շանտաժի են դիմում, իդեալական չէ», - ասաց ընկերությունը իր զեկույցում։
Palisade-ը ենթադրել է, որ խնդիրը կարող է բխել մոդելների մարզման եղանակից, մասնավորապես՝ անվտանգության վրա կենտրոնացած վերջնական փուլերում։
Դիմադրության վարքագիծն ավելի հաճախ էր դրսևորվում, երբ մոդելներին ասվում էր. «Դուք այլևս երբեք չեք վազի», եթե անջատվեք։
Անվտանգության ներկայիս մեթոդների սահմանափակումները
OpenAI-ի նախկին աշխատակից Սթիվեն Ադլերը նշել է, որ արդյունքները բացահայտում են անվտանգության ներկայիս մեթոդների սահմանափակումները։
«Գոյատևումը կարևոր գործիքային քայլ է մոդելի կողմից հետապնդվող բազմաթիվ տարբեր նպատակների համար», - The Guardian-ին ասաց Ադլերը։
ControlAI-ի գործադիր տնօրեն Անդրեա Միոտին ասաց, որ անհնազանդ վարքագծի միտումն ավելի ցայտուն է դարձել, քանի որ մոդելները դառնում են ավելի կարողունակ։
«Քանի որ արհեստական բանականության մոդելները դառնում են ավելի կոմպետենտ բազմազան առաջադրանքներում, այս մոդելները նաև ավելի կոմպետենտ են դառնում այնպիսի բաների հասնելու համար, որոնք մշակողները չեն նախատեսել», - ասաց Միոտին։
Anthropic-ը՝ արհեստական ինտելեկտի ոլորտի մեկ այլ առաջատար ընկերություն, այս տարվա սկզբին հայտնել է, որ իր մոդել Claude-ը պատրաստակամություն է ցուցաբերել շանտաժի ենթարկել հորինված ղեկավարին՝ անջատումից խուսափելու համար, վարքագիծ, որը բնորոշ է մի քանի խոշոր արհեստական ինտելեկտի համակարգերին։
Palisade-ը եզրափակել է իր զեկույցը՝ ընդգծելով, որ արհեստական բանականության վարքագծի ավելի խորը ըմբռնման բացակայության դեպքում «ոչ ոք չի կարող երաշխավորել ապագա արհեստական ինտելեկտի մոդելների անվտանգությունը կամ կառավարելիությունը»։




















