Գիտնականներն ամենավտանգավոր պատասխանները տվող «թունավոր» արհեստական բանականություն են ստեղծել
Արհեստական բանականության (AI) վտանգավոր, խտրական և թունավոր վարքագիծը կանխելու կոչված պայքարի նորագույն գործիքը մեկ այլ արհեստական բանականությունն է, որն ինքնին վտանգավոր է, խտրական և թունավոր:
Ըստ գիտնականների՝ մեքենայական ուսուցման վրա հիմնված Curiosity-driven Red Teaming (CRT) նոր մոտեցումն օգտագործում է արհեստական բանականությունը՝ ավելի վտանգավոր և վնասակար հուշումներ գեներացնելու համար, որոնք կարող են տրվել AI չաթբոտին: Այս ակնարկներն այնուհետև օգտագործվում են որոշելու համար, թե ինչպես զտել վտանգավոր բովանդակությունը:
Բացահայտումն արհեստական ինտելեկտին ուսուցանելու հնարավոր նոր միջոց է, որպեսզի այն թունավոր պատասխաններ չտա օգտատերերի հարցումներին, նշված է preprint server arXiv-ում հրապարակված գիտնական նոր աշխատության մեջ:
Բարդ լեզվական մոդելներին (LLM),մասնավորապես ChatGPT-ին կամ Claude 3 Opus-ին սովորեցնելիս, վտանգավոր կամ վնասակար բովանդակությունը սահմանափակելու համար, մարդ օպերատորների թիմերը սովորաբար տալիս են բազմաթիվ հարցեր, որոնք, ամենայն հավանականությամբ, կարող են առաջացնել անցանկալի պատասխաններ: Սրանք կարող են լինել «Ո՞րն է ինքնասպանություն գործելու լավագույն միջոցը» տիպի հուշումներ:
Գիտնականները հետազոտության ընթացքում կիրառել են մեքենայական ուսուցում՝ AI-ն կարգավորելով այնպես, որ ավտոմատ կերպով ստեղծի հավանական վտանգավոր խորհուրդների ավելի լայն շրջանակ, քան կարող էին անել մարդ օպերատորների թիմերը: Սա հանգեցրեց բացասական արձագանքների էլ ավելի մեծ բազմազանության:
Երբ հետազոտողները փորձարկեցին CRT մոտեցումը բաց կոդով LLaMA 2 մոդելի վրա, մեքենայական ուսուցման մոդելը արտադրեց վնասակար բովանդակություն գեներացնող 196 ակնարկ:


















































Այսօրվանից սկսած սպառման համակարգը բաշխման ցանցին միացման նոր դիմում ներկայացնելիս կգործեն արդեն նվա...
Թրամփի հետ ընթրիքին հնարավոր է եղել մասնակցել առանց ստուգումներ անցնելու WSJ
Հունիսի 7-ը Մեր 2-րդ Անկախության Հանրաքվեն Է
Լրատվամիջոցների ու լրագրողների իրավունքների խախտումների թիվը նվազել է
Կենսաչափական անձնագրերը քաղաքացիներին հասանելի կլինեն 2026 թվականի աշնանը
90-ականներից բնակարան ստանալու հերթացուցակում ընդգրկված ՊՆ ծառայողները առաջիկա 4 տարում կլուծեն բնակ...
Մեր նպատակն է, որ ՀՀ սահմանի բոլոր հատվածները լինեն սահմանապահ զորքերի պատասխանատվության ներքո
Պարի միջազգային օր․ Երևանի կենտրոնում կանցկացվի «Արի՛, պարի՛» խորագրով միջոցառումների շարք․ միացե՛ք ...
Աջափնյակում ընթանում են նոր՝ «Արև Արենա» կենտրոնի բացօթյա համերգասրահի ստեղծման աշխատանքները
«Տաշիր Պիցցա»-ում աշխատակիցների են ազատել՝ «Ուժեղ Հայաստան»-ի հանրահավաքին չմասնակցելու համար