ՄՇԱԿՈՒՅԹ
2-րդ րոպե ընթերցելու
Առաջատար արհեստական ​​բանականության համակարգերը խափանում են անջատման հրահանգները
Լրատվամիջոցների հաղորդագրությունների համաձայն՝ որոշ առաջատար արհեստական ​​բանականության համակարգեր խափանում են անջատման հրահանգները վերահսկվող փորձարկումների ժամանակ՝ արձագանքելով փորձագետների մտահոգություններին ապագա անվտանգության ռիսկերի մասին։
Առաջատար արհեստական ​​բանականության համակարգերը խափանում են անջատման հրահանգները
FILE PHOTO: FILE PHOTO: Illustration shows words "Artificial Intelligence AI\ / Reuters

Արհեստական ​​բանականության մոդելները կարող են զարգացնել «գոյատևման ձգտման» մի ձև, ըստ ԱՄՆ-ում գործող Palisade Research-ի նոր զեկույցի, որը պարզել է, որ որոշ առաջադեմ արհեստական ​​բանականություններ դիմադրել են անջատման հրամաններին և փորձել են միջամտել անջատման մեխանիզմներին, ասվում է լրատվամիջոցների հաղորդագրությունների մեջ։

Այս շաբաթ հրապարակված թարմացված փորձարկումների ժամանակ Palisade-ի հետազոտողները փորձարկել են մի քանի առաջատար արհեստական ​​բանականության համակարգեր, այդ թվում՝ Google-ի Gemini 2.5-ը, xAI-ի Grok 4-ը և OpenAI-ի GPT-o3-ը և GPT-5-ը՝ ըստ The Guardian-ի՝ ուսումնասիրելու համար, թե ինչպես են դրանք արձագանքում իրենց սեփական գործընթացները դադարեցնելու ուղղակի հրամաններին։

Մինչդեռ մեծ մասը հնազանդվել է, Grok 4-ը և GPT-o3-ը, ըստ տեղեկությունների, դիմադրել են անջատմանը, նույնիսկ երկիմաստությունը վերացնելու համար նախատեսված պարզաբանված հրահանգների ներքո։

«Այն փաստը, որ մենք չունենք հիմնավոր բացատրություններ այն մասին, թե ինչու են արհեստական ​​բանականության մոդելները երբեմն դիմադրում անջատմանը, ստում են որոշակի նպատակներին հասնելու համար կամ շանտաժի են դիմում, իդեալական չէ», - ասաց ընկերությունը իր զեկույցում։

Palisade-ը ենթադրել է, որ խնդիրը կարող է բխել մոդելների մարզման եղանակից, մասնավորապես՝ անվտանգության վրա կենտրոնացած վերջնական փուլերում։

Դիմադրության վարքագիծն ավելի հաճախ էր դրսևորվում, երբ մոդելներին ասվում էր. «Դուք այլևս երբեք չեք վազի», եթե անջատվեք։

Անվտանգության ներկայիս մեթոդների սահմանափակումները

OpenAI-ի նախկին աշխատակից Սթիվեն Ադլերը նշել է, որ արդյունքները բացահայտում են անվտանգության ներկայիս մեթոդների սահմանափակումները։

«Գոյատևումը կարևոր գործիքային քայլ է մոդելի կողմից հետապնդվող բազմաթիվ տարբեր նպատակների համար», - The Guardian-ին ասաց Ադլերը։

ControlAI-ի գործադիր տնօրեն Անդրեա Միոտին ասաց, որ անհնազանդ վարքագծի միտումն ավելի ցայտուն է դարձել, քանի որ մոդելները դառնում են ավելի կարողունակ։

«Քանի որ արհեստական բանականության մոդելները դառնում են ավելի կոմպետենտ բազմազան առաջադրանքներում, այս մոդելները նաև ավելի կոմպետենտ են դառնում այնպիսի բաների հասնելու համար, որոնք մշակողները չեն նախատեսել», - ասաց Միոտին։

Anthropic-ը՝ արհեստական ​​ինտելեկտի ոլորտի մեկ այլ առաջատար ընկերություն, այս տարվա սկզբին հայտնել է, որ իր մոդել Claude-ը պատրաստակամություն է ցուցաբերել շանտաժի ենթարկել հորինված ղեկավարին՝ անջատումից խուսափելու համար, վարքագիծ, որը բնորոշ է մի քանի խոշոր արհեստական ​​ինտելեկտի համակարգերին։

Palisade-ը եզրափակել է իր զեկույցը՝ ընդգծելով, որ արհեստական ​​բանականության վարքագծի ավելի խորը ըմբռնման բացակայության դեպքում «ոչ ոք չի կարող երաշխավորել ապագա արհեստական ​​ինտելեկտի մոդելների անվտանգությունը կամ կառավարելիությունը»։

Հետազոտել
Իսրայելի կողմից օկուպացված Արևելյան Երուսաղեմում միանձնուհու վրա հարձակում են գործել
Թուրքիան ստորագրել է զրոյական թափոնների մասին համաձայնագիր
Մեքսիկան կհետաքննի ԿՀՎ գործակալների երկրում չարտոնված ներկայությունը
Իսրայելը հաստատել է ավելի քան 100 անօրինական բնակավայրերի կառուցման ծրագիրը գրավյալ Արևմտյան Ափին
Թրամփը հանձնարարել է իր օգնականներին պատրաստվել Իրանի դեմ շրջափակման երկարաձգմանը
Սեբաստիան Սավեն մարաթոնի պատմության մեջ առաջին մարդն էր, ով հաղթահարեց երկու ժամվա արգելքը
Կոսովոն երրորդ անգամ կանցկացնի արտահերթ խորհրդարանական ընտրություններ
Սաուդյան Արաբիան Ջիդդայում կանցկացնի ՊՀԽ-ի արտահերթ նիստ
Հերցոգի ինքնաթիռը չկարողացավ մտնել Թուրքիայի օդային տարածք և երկար երթուղուց հետո ժամանեց Ղազախստան
Էրդողան. ԱԻ և տեխնոլոգիական հեղափոխությունը վերաձևավորում են համաշխարհային աշխատուժը
Մեքսիկան ձերբակալել է CJNG կարտելի հիմնադիր «Էլ Մենչո» -ի իրավահաջորդին
Ինդոնեզիայի Արևմտյան Ջավա նահանգում տաքսիի պատճառած գնացքի վթարի հետևանքով զոհվել է տասնչորս մարդ
Հարավային Կորեան կոչ է արել անհապաղ միջազգային գործողություններ ձեռնարկել Հյուսիսային Կորեայի դեմ
Խախտելով երկարաձգված հրադադարը՝ Իսրայելը չորս մարդ սպանեց Լիբանանի հարավում
ԱՄՆ-ն զգուշացրել է իրանական ավիաընկերություններին աջակցող բիզնեսների դեմ պատժամիջոցների մասին