ՄՇԱԿՈՒՅԹ
2-րդ րոպե ընթերցելու
Առաջատար արհեստական ​​բանականության համակարգերը խափանում են անջատման հրահանգները
Լրատվամիջոցների հաղորդագրությունների համաձայն՝ որոշ առաջատար արհեստական ​​բանականության համակարգեր խափանում են անջատման հրահանգները վերահսկվող փորձարկումների ժամանակ՝ արձագանքելով փորձագետների մտահոգություններին ապագա անվտանգության ռիսկերի մասին։
Առաջատար արհեստական ​​բանականության համակարգերը խափանում են անջատման հրահանգները
FILE PHOTO: FILE PHOTO: Illustration shows words "Artificial Intelligence AI\
October 27, 2025

Արհեստական ​​բանականության մոդելները կարող են զարգացնել «գոյատևման ձգտման» մի ձև, ըստ ԱՄՆ-ում գործող Palisade Research-ի նոր զեկույցի, որը պարզել է, որ որոշ առաջադեմ արհեստական ​​բանականություններ դիմադրել են անջատման հրամաններին և փորձել են միջամտել անջատման մեխանիզմներին, ասվում է լրատվամիջոցների հաղորդագրությունների մեջ։

Այս շաբաթ հրապարակված թարմացված փորձարկումների ժամանակ Palisade-ի հետազոտողները փորձարկել են մի քանի առաջատար արհեստական ​​բանականության համակարգեր, այդ թվում՝ Google-ի Gemini 2.5-ը, xAI-ի Grok 4-ը և OpenAI-ի GPT-o3-ը և GPT-5-ը՝ ըստ The Guardian-ի՝ ուսումնասիրելու համար, թե ինչպես են դրանք արձագանքում իրենց սեփական գործընթացները դադարեցնելու ուղղակի հրամաններին։

Մինչդեռ մեծ մասը հնազանդվել է, Grok 4-ը և GPT-o3-ը, ըստ տեղեկությունների, դիմադրել են անջատմանը, նույնիսկ երկիմաստությունը վերացնելու համար նախատեսված պարզաբանված հրահանգների ներքո։

«Այն փաստը, որ մենք չունենք հիմնավոր բացատրություններ այն մասին, թե ինչու են արհեստական ​​բանականության մոդելները երբեմն դիմադրում անջատմանը, ստում են որոշակի նպատակներին հասնելու համար կամ շանտաժի են դիմում, իդեալական չէ», - ասաց ընկերությունը իր զեկույցում։

Palisade-ը ենթադրել է, որ խնդիրը կարող է բխել մոդելների մարզման եղանակից, մասնավորապես՝ անվտանգության վրա կենտրոնացած վերջնական փուլերում։

Դիմադրության վարքագիծն ավելի հաճախ էր դրսևորվում, երբ մոդելներին ասվում էր. «Դուք այլևս երբեք չեք վազի», եթե անջատվեք։

Անվտանգության ներկայիս մեթոդների սահմանափակումները

OpenAI-ի նախկին աշխատակից Սթիվեն Ադլերը նշել է, որ արդյունքները բացահայտում են անվտանգության ներկայիս մեթոդների սահմանափակումները։

«Գոյատևումը կարևոր գործիքային քայլ է մոդելի կողմից հետապնդվող բազմաթիվ տարբեր նպատակների համար», - The Guardian-ին ասաց Ադլերը։

ControlAI-ի գործադիր տնօրեն Անդրեա Միոտին ասաց, որ անհնազանդ վարքագծի միտումն ավելի ցայտուն է դարձել, քանի որ մոդելները դառնում են ավելի կարողունակ։

«Քանի որ արհեստական բանականության մոդելները դառնում են ավելի կոմպետենտ բազմազան առաջադրանքներում, այս մոդելները նաև ավելի կոմպետենտ են դառնում այնպիսի բաների հասնելու համար, որոնք մշակողները չեն նախատեսել», - ասաց Միոտին։

Anthropic-ը՝ արհեստական ​​ինտելեկտի ոլորտի մեկ այլ առաջատար ընկերություն, այս տարվա սկզբին հայտնել է, որ իր մոդել Claude-ը պատրաստակամություն է ցուցաբերել շանտաժի ենթարկել հորինված ղեկավարին՝ անջատումից խուսափելու համար, վարքագիծ, որը բնորոշ է մի քանի խոշոր արհեստական ​​ինտելեկտի համակարգերին։

Palisade-ը եզրափակել է իր զեկույցը՝ ընդգծելով, որ արհեստական ​​բանականության վարքագծի ավելի խորը ըմբռնման բացակայության դեպքում «ոչ ոք չի կարող երաշխավորել ապագա արհեստական ​​ինտելեկտի մոդելների անվտանգությունը կամ կառավարելիությունը»։

Հետազոտել
Չինացի գիտնականները մշակել են տիեզերական զենքի համար նախատեսված ճշգրիտ և հզոր արբանյակային համակարգ
Նրանք ունեն փողը և չիպերը, ի՞նչն է հիմա խանգարում տեխնոլոգիական հսկաներին
TRT World Digital-ը մեծ հաղթանակ տարավ 2025 թվականի Lovie Awards-ում
Լուլան անտառային ֆոնդ է ստեղծում Բրազիլիայի կլիմայական գագաթնաժողովում
IATA-ն յուանը ավելացնում է որպես հաշվարկային արժույթ
Nvidia-ի գործադիր տնօրենը հայտարարեց, որ Չինաստանը կհաղթի արհեստական ​​բանականության մրցավազքում
Թուրքիայի հայտնի Գազիանթեփի լահմաջունը ստացել է ԵՄ-ի աշխարհագրական նշման գրանցում
Չինացի տիեզերագնացները կարող են ուշանալ Երկիր վերադառնալիս, քանի որ նրանց տիեզերանավը հնարավոր է, որ բախվել է աղբի հետ
Ի՞նչ է կատարվում Սուդանում, և ինչպե՞ս է իրավիճակը այսքան վատ դարձել
Հավատք ավերակների մեջ. թուրք կնոջ 24 տարին Գազայում
Թուրքական «Fergani» տիեզերական ընկերությունը տիեզերք է ուղարկել իր սեփական արբանյակը
Եգիպտոսում շքեղ արարողությամբ բացվել է մեծ թանգարան
«Վերադարձրեք մեր զարդերը». Փարիզի կոմսը «անձնական» ուղերձ է հղել Լուվրի գողերին
Ավստրիան դառնում է Clearview AI-ի դեմ վերջին մարտադաշտը՝ միլիարդավոր առցանց պատկերներ հավաքելու
Մի կողմ դրեք Լուվրը. Մեծ Եգիպտական ​​թանգարանը բացում է իր դռները 5000 տարվա պատմության առջև
Amazon-ը հազարավոր աշխատակիցների կփոխարինի «համագործակցող» ռոբոտներով
Լուվրի թանգարանը վերաբացվում է զարդերի գողությունից հետո՝ խստացված հետաքննության պատճառով
Օսման Համդի բեյի հազվագյուտ օսմանյան դիմանկարը աճուրդի է հանվել 1.5 միլիոն դոլարով
Ինչու՞ սոցիալական ցանցերից հրաժարվելը կարող է լինել երջանկության գրավականը
Meta-ն ջնջեց սպանված Գազայի լրագրող Ալջաֆարավիին Instagram-ից