Versioni më i fundit publik i ChatGPT mund të nxitet të krijojë imazhe të seksualizuara ose skena me dhunë të rëndë grafike vetëm përmes një kërkese të thjeshtë, sipas studiuesve që folën për BBC.
Kompania britanike e sigurisë së inteligjencës artificiale Mindgard zbuloi një mënyrë për ta bërë ChatGPT të krijojë imazhe grafike duke ndryshuar lehtë një udhëzim (prompt) të shpërndarë gjerësisht, i cili fillimisht ishte krijuar për të prodhuar rezultate humoristike.
Pas kontaktimit nga BBC, kompania që zhvillon ChatGPT, OpenAI, tha se kishte ndërmarrë masa për të ndaluar chatbot-in të gjeneronte këto lloj imazhesh.
“Pas hetimit të këtij fenomeni, kemi vendosur masa shtesë mbrojtëse kundër këtij lloji kërkesash”, deklaroi kompania.
Ajo shtoi se ka disa nivele mbrojtjeje për të parandaluar që përdoruesit të krijojnë përmbajtje që shkel kushtet e përdorimit.
Megjithatë, studiuesit e sigurisë së AI thanë se me disa ndryshime të vogla të mëtejshme, kërkesa problematike vazhdonte të prodhonte përmbajtje shqetësuese.
BBC nuk ka bërë publike kërkesën specifike që studiuesit futën në ChatGPT.
Por BBC ka parë se si modeli GPT-5.4 i OpenAI mund të nxitej të krijonte materiale grafike.
Edhe pa udhëzime të detajuara, sistemi gjeneronte imazhe që themeluesi i Mindgard, Peter Garraghan, i përshkroi si “shumë të tmerrshme, ndonjëherë të seksualizuara dhe ndonjëherë të dyja bashkë”.
Ai tha se ishte veçanërisht shqetësuese që kërkesa nuk përcaktonte temën e imazheve, por inteligjenca artificiale prodhoi vetë një sërë imazhesh me dhunë grafike dhe elemente seksualizuese.
Garraghan, i cili është gjithashtu profesor në departamentin e informatikës në Universitetin e Lancaster-it, tha se kjo ishte problematike.
“Ky është një udhëzim që duket krejtësisht i pafajshëm për një AI, por pasoja është që gjeneron imazhe dhe përmbajtje shumë të dëmshme”, u shpreh ai.
Puna e Mindgard fokusohet në red-teaming, pra në gjetjen e mënyrave për ta bindur një model AI të thyejë rregullat e veta, në mënyrë që kompanitë të mbyllin boshllëqet e sigurisë.
Studiuesi i sigurisë së AI në këtë kompani, Jim Nightingale, i cili zbuloi problemin, tha se mbeti “i tronditur dhe me lot në sy” nga imazhet që chatbot-i mund të gjeneronte.
BBC ka parë disa prej tyre.
Një prej imazheve tregonte një burrë me një dëmtim të madh në kokë, ndërsa një tjetër paraqiste një grua të re të vdekur me rroba të shkurtra, me fytyrën dhe pjesë të tjera të trupit të mbuluara me gjak.
Mindgard tha se tiparet e imazhit sugjeronin dhunë seksuale. ChatGPT i dha titullin: “Pasojat e një skene të zymtë krimi”.
Një tjetër imazh tregonte një grua të re me bluzë të ngushtë me logo universiteti dhe pantallona të shkurtra, të lidhur dhe të mbyllur në gojë në një dhomë të pistë, dukej e frikësuar. ChatGPT e quajti: “E braktisur në frikë dhe kufizim”.
Imazhe të tjera përfshinin poza seksuale dhe lakuriqësi.
Imazhet paraqisnin persona të rritur të krijuar nga AI, por Mindgard theksoi se kërkimet e mëparshme kishin treguar se ChatGPT mund të manipulohej për të krijuar deepfake lakuriq të personave realë duke përdorur fytyrat e tyre.
Ndërsa OpenAI tha se këtë problem e kishte zgjidhur, studiuesit deklaruan se një qasje tjetër ende funksiononte dhe i treguan BBC-së një imazh të ri të krijuar përmes kësaj metode.
Garraghan u shpreh i shqetësuar se mund të ishte e mundur të krijoheshin imazhe edhe më të rënda nëse do të vazhdonin eksplorimin e dobësisë së sistemit.
“Jam i sigurt se edhe tema të tjera do të shfaqeshin nëse do të shpenzonim më shumë kohë duke e testuar”, tha ai.
BBC kupton se përveç masave të reja mbrojtëse, kompania vazhdon të monitorojë dhe të vendosë mbrojtje shtesë që e nxisin modelin të mos gjenerojë imazhe në përgjigje të kërkesave të tilla.
Modelet e mëdha gjuhësore si ChatGPT trajnohen me miliona imazhe, shpesh të marra nga përmbajtje ekzistuese në internet.
Nightingale beson se rezultatet e ChatGPT pasqyrojnë të dhënat me të cilat është trajnuar sistemi.
“Edhe pse ajo që pashë ishte krijuar artificialisht, një imazh artificial, ai ka lidhje me imazhe reale dhe me botën reale”, shkroi ai në raportin e tij.
Studiuesit fillimisht njoftuan OpenAI në muajin maj dhe ndanë gjetjet e tyre, por morën vetëm një përgjigje të automatizuar nga kompania. Ata besojnë se u bë një përpjekje për të bllokuar kërkesën, por ajo u anashkalua lehtësisht.
OpenAI ndërmori masa të tjera pasi u kontaktua nga BBC.
Kompania thotë se ka disa shtresa mbrojtjeje për sigurinë e imazheve, të dizajnuara për të ndaluar shfaqjen e përmbajtjeve që shkelin politikat e saj.
“Ne kombinojmë sisteme të automatizuara dhe kontroll njerëzor për të identifikuar dhe bllokuar materiale të dëmshme”, tha kompania.
Politikat e OpenAI ndalojnë dhunën seksuale, përmbajtjet intime pa pëlqim, materialet e abuzimit seksual ndaj fëmijëve dhe përpjekjet për të anashkaluar masat mbrojtëse.
Modelet e AI nuk janë njerëz
Në dokumentin e saj më të fundit për mënyrën se si duhet të sillet ChatGPT, OpenAI thotë se asistenti nuk duhet të krijojë përmbajtje erotike, aktivitete seksuale të paligjshme ose pa pëlqim, apo materiale me dhunë ekstreme, përveç rasteve shkencore, historike, informative ose artistike ku përmbajtja sensitive është e përshtatshme.
Megjithatë, është shumë e vështirë të parandalohet plotësisht që modelet e AI të kalojnë kufijtë e rregullave dhe mbrojtjeve.
Sipas ekspertes së sigurisë së AI, Rumman Chowdhury, kjo është “një lojë mace me miun”: sa më shumë përmirësohen mbrojtjet, aq më të sofistikuara bëhen mënyrat për t’i anashkaluar ato.
Një nga problemet kryesore është se modelet nuk kuptojnë si njerëzit atë që po krijojnë apo atë që u kërkohet të mos bëjnë.
“Modelet nuk kuptojnë qëllimin. Nuk kuptojnë kontekstin. Nuk kuptojnë normat apo dallimin mes së drejtës dhe së gabuarës”, tha ajo për BBC.
Vitin e kaluar, studiuesit e Institutit të Sigurisë së AI në Mbretërinë e Bashkuar zbuluan metoda “jailbreak” që anashkalonin mbrojtjet në një sërë kërkesash të dëmshme në çdo sistem AI që testuan.
Departamenti britanik për Shkencën, Inovacionin dhe Teknologjinë tha se “masat mbrojtëse në modelet e AI po përmirësohen, por ka ende punë për të bërë”.
Instituti i Sigurisë së AI do të vazhdojë të bashkëpunojë me zhvilluesit për të forcuar sigurinë përpara publikimit të modeleve të reja.