ՄՇԱԿՈՒՅԹ
2-րդ րոպե ընթերցելու
Առաջատար արհեստական ​​բանականության համակարգերը խափանում են անջատման հրահանգները
Լրատվամիջոցների հաղորդագրությունների համաձայն՝ որոշ առաջատար արհեստական ​​բանականության համակարգեր խափանում են անջատման հրահանգները վերահսկվող փորձարկումների ժամանակ՝ արձագանքելով փորձագետների մտահոգություններին ապագա անվտանգության ռիսկերի մասին։
Առաջատար արհեստական ​​բանականության համակարգերը խափանում են անջատման հրահանգները
FILE PHOTO: FILE PHOTO: Illustration shows words "Artificial Intelligence AI\ / Reuters
27 de octubre de 2025

Արհեստական ​​բանականության մոդելները կարող են զարգացնել «գոյատևման ձգտման» մի ձև, ըստ ԱՄՆ-ում գործող Palisade Research-ի նոր զեկույցի, որը պարզել է, որ որոշ առաջադեմ արհեստական ​​բանականություններ դիմադրել են անջատման հրամաններին և փորձել են միջամտել անջատման մեխանիզմներին, ասվում է լրատվամիջոցների հաղորդագրությունների մեջ։

Այս շաբաթ հրապարակված թարմացված փորձարկումների ժամանակ Palisade-ի հետազոտողները փորձարկել են մի քանի առաջատար արհեստական ​​բանականության համակարգեր, այդ թվում՝ Google-ի Gemini 2.5-ը, xAI-ի Grok 4-ը և OpenAI-ի GPT-o3-ը և GPT-5-ը՝ ըստ The Guardian-ի՝ ուսումնասիրելու համար, թե ինչպես են դրանք արձագանքում իրենց սեփական գործընթացները դադարեցնելու ուղղակի հրամաններին։

Մինչդեռ մեծ մասը հնազանդվել է, Grok 4-ը և GPT-o3-ը, ըստ տեղեկությունների, դիմադրել են անջատմանը, նույնիսկ երկիմաստությունը վերացնելու համար նախատեսված պարզաբանված հրահանգների ներքո։

«Այն փաստը, որ մենք չունենք հիմնավոր բացատրություններ այն մասին, թե ինչու են արհեստական ​​բանականության մոդելները երբեմն դիմադրում անջատմանը, ստում են որոշակի նպատակներին հասնելու համար կամ շանտաժի են դիմում, իդեալական չէ», - ասաց ընկերությունը իր զեկույցում։

Palisade-ը ենթադրել է, որ խնդիրը կարող է բխել մոդելների մարզման եղանակից, մասնավորապես՝ անվտանգության վրա կենտրոնացած վերջնական փուլերում։

Դիմադրության վարքագիծն ավելի հաճախ էր դրսևորվում, երբ մոդելներին ասվում էր. «Դուք այլևս երբեք չեք վազի», եթե անջատվեք։

Անվտանգության ներկայիս մեթոդների սահմանափակումները

OpenAI-ի նախկին աշխատակից Սթիվեն Ադլերը նշել է, որ արդյունքները բացահայտում են անվտանգության ներկայիս մեթոդների սահմանափակումները։

«Գոյատևումը կարևոր գործիքային քայլ է մոդելի կողմից հետապնդվող բազմաթիվ տարբեր նպատակների համար», - The Guardian-ին ասաց Ադլերը։

ControlAI-ի գործադիր տնօրեն Անդրեա Միոտին ասաց, որ անհնազանդ վարքագծի միտումն ավելի ցայտուն է դարձել, քանի որ մոդելները դառնում են ավելի կարողունակ։

«Քանի որ արհեստական բանականության մոդելները դառնում են ավելի կոմպետենտ բազմազան առաջադրանքներում, այս մոդելները նաև ավելի կոմպետենտ են դառնում այնպիսի բաների հասնելու համար, որոնք մշակողները չեն նախատեսել», - ասաց Միոտին։

Anthropic-ը՝ արհեստական ​​ինտելեկտի ոլորտի մեկ այլ առաջատար ընկերություն, այս տարվա սկզբին հայտնել է, որ իր մոդել Claude-ը պատրաստակամություն է ցուցաբերել շանտաժի ենթարկել հորինված ղեկավարին՝ անջատումից խուսափելու համար, վարքագիծ, որը բնորոշ է մի քանի խոշոր արհեստական ​​ինտելեկտի համակարգերին։

Palisade-ը եզրափակել է իր զեկույցը՝ ընդգծելով, որ արհեստական ​​բանականության վարքագծի ավելի խորը ըմբռնման բացակայության դեպքում «ոչ ոք չի կարող երաշխավորել ապագա արհեստական ​​ինտելեկտի մոդելների անվտանգությունը կամ կառավարելիությունը»։

Հետազոտել
Իրանցի դիվանագետ Քամալ Խարազին զոհվել է ԱՄՆ-Իսրայել ահաբեկչական հարձակման հետևանքով
ՌԴ-ն վերադարձրել է 1000 ուկրաինացի զինվորի մարմին
Բելգիայի արտաքին գործերի նախարարը նշել է, որ հրադադարի համաձայնագիրը պետք է ներառի նաև Լիբանանը
Ռուդեն Սպիտակ տան հանդիպման մասին պատմելիս նշել է, որ Թփամձը հայտնել է թե ՆԱՏՕ-ն ԱՄՆ կողքին չի եղել
Թուրքական «Çağrı Bey» նավը ժամանել է Սոմալի
Թուրքիայի ՊՆ․ Նախնական արդյունքների համաձայն՝ պայթուցիկ նյութի հետքեր չեն հայտնաբերվել
Դուրան. Թուրքիան կառուցողական դեր է խաղացել Ռուսաստան-Ուկրաինա և Լեռնային Ղարաբաղի ճգնաժամերում
Նախագահ Էրդողան․ Աշխարհը հիացմունքով է հետևում մեզ
Թրամփը զգուշացնում է, որ ԱՄՆ-ն կմնա Իրանում և շրջակայքում մինչև «իրական գործարքի» ուժի մեջ մտնելը
Գուտերեշը դատապարտել է Իսրայելի հարձակումները Լիբանանում և զգուշացրել, որ հրադադարը կվտանգվի
Իրանը հայտարարում է, որ 10-կետանոց շրջանակի հիմնական կետերը խախտվել են խաղաղության բանակցությունների նախօրեին
Թրամփը քննարկում է ՆԱՏՕ-ի դաշնակիցներին պատժելու հարցը, որոնք չեն աջակցում Իրանի պատերազմին
Իսրայելը վերաբացնում է Ալ-Աքսա մզկիթը և Սուրբ Գերեզմանի եկեղեցին վեց շաբաթ տևած փակումից հետո
Չինաստանը, Ռուսաստանը, Թուրքիան և Պակիստանը կարող են միասին աշխատել՝ երաշխավորելու խաղաղությունը Մերձավոր Արևելքում. իրանական դեսպան
Թուրքիան կոչ է անում Հունաստանին պահպանել ընտրված թուրքական փոքրամասնության կրոնական առաջնորդների իրավունքները