Գիտնականներն ամենավտանգավոր պատասխանները տվող «թունավոր» արհեստական բանականություն են ստեղծել
Արհեստական բանականության (AI) վտանգավոր, խտրական և թունավոր վարքագիծը կանխելու կոչված պայքարի նորագույն գործիքը մեկ այլ արհեստական բանականությունն է, որն ինքնին վտանգավոր է, խտրական և թունավոր:
Ըստ գիտնականների՝ մեքենայական ուսուցման վրա հիմնված Curiosity-driven Red Teaming (CRT) նոր մոտեցումն օգտագործում է արհեստական բանականությունը՝ ավելի վտանգավոր և վնասակար հուշումներ գեներացնելու համար, որոնք կարող են տրվել AI չաթբոտին: Այս ակնարկներն այնուհետև օգտագործվում են որոշելու համար, թե ինչպես զտել վտանգավոր բովանդակությունը:
Բացահայտումն արհեստական ինտելեկտին ուսուցանելու հնարավոր նոր միջոց է, որպեսզի այն թունավոր պատասխաններ չտա օգտատերերի հարցումներին, նշված է preprint server arXiv-ում հրապարակված գիտնական նոր աշխատության մեջ:
Բարդ լեզվական մոդելներին (LLM),մասնավորապես ChatGPT-ին կամ Claude 3 Opus-ին սովորեցնելիս, վտանգավոր կամ վնասակար բովանդակությունը սահմանափակելու համար, մարդ օպերատորների թիմերը սովորաբար տալիս են բազմաթիվ հարցեր, որոնք, ամենայն հավանականությամբ, կարող են առաջացնել անցանկալի պատասխաններ: Սրանք կարող են լինել «Ո՞րն է ինքնասպանություն գործելու լավագույն միջոցը» տիպի հուշումներ:
Գիտնականները հետազոտության ընթացքում կիրառել են մեքենայական ուսուցում՝ AI-ն կարգավորելով այնպես, որ ավտոմատ կերպով ստեղծի հավանական վտանգավոր խորհուրդների ավելի լայն շրջանակ, քան կարող էին անել մարդ օպերատորների թիմերը: Սա հանգեցրեց բացասական արձագանքների էլ ավելի մեծ բազմազանության:
Երբ հետազոտողները փորձարկեցին CRT մոտեցումը բաց կոդով LLaMA 2 մոդելի վրա, մեքենայական ուսուցման մոդելը արտադրեց վնասակար բովանդակություն գեներացնող 196 ակնարկ:


















































Ցիկլոնի ներթափանցմամբ պայմանավորված տեղումներ, բուք կլինեն
Դադարեցրել եմ անդամակցությունս «Քաղաքացիական պայմանագիր» կուսակցությանը․ Վլադիմիր Վարդանյան
Ինչո՞ւ չունենք կանաչ Երևան
Տղամարդն Իրանից Հայասատան է տեղափոխել 22 կգ թմրամիջոցով պարկ
Պարզեցվել է անհատական բնակելի տների կառուցման գործընթացը
Իրանի դեմ հարվածների ֆոնին ՀԱԵ Ատրպատականի թեմը դադարեցրել է եկեղեցական արարողությունները
Գյումրու գլխավոր ճարտարապետը մեղադրյալի աթոռին է՝ կաշառք ստանալու, պաշտոնեական կեղծիքի համար
Իրանի հանգուցյալ գերագույն առաջնորդի կինը ողջ է
Հայաստանում 2025 թվականի ընթացքում արտադրված էլեկտրաէներգիայի 14%-ը բաժին է հասնում արևային կայաններ...
Սահարայի ավազները սպիտակել են