AI మోడళ్లను సరైన సూచనలను అనుసరించ도록 నేర్పడం

OpenAI IH-Challenge అనే కొత్త శిక్షణ విధానంపై పరిశోధనను ప్రచురించింది, ఇది అమలులో ఉన్న AI వ్యవస్థల్లో అత్యంత నిరంతరంగా ఎదురయ్యే సమస్యల్లో ఒకదాన్ని పరిష్కరించేందుకు రూపొందించబడింది: డెవలపర్లు, ఆపరేటర్లు, మరియు ధృవీకరించబడిన వినియోగదారుల వంటి విశ్వసనీయ పక్షాల సూచనలను, వెబ్ కంటెంట్ లేదా tool outputs వంటి నమ్మదగని చానెళ్ల ద్వారా వచ్చే సాధ్యమైన వ్యతిరేక సూచనల కంటే మోడళ్లు విశ్వసనీయంగా ముందుగా అనుసరించేలా చేయడం.

ఈ పని AI safety community instruction hierarchy problem అని పిలిచే సమస్యను పరిష్కరిస్తుంది. ఒక agent‌గా పనిచేసే పెద్ద భాషా మోడల్ ఒకేసారి అనేక మూలాల నుండి సూచనలను పొందవచ్చు: డెవలపర్ నుండి ఒక system prompt, వినియోగదారు సూచనలు, మరియు వెబ్ లేదా బాహ్య tools నుండి పొందిన కంటెంట్. ఆ సూచనలు పరస్పరం విరుద్ధంగా ఉన్నప్పుడు, ఏదిని అనుసరించాలో నిర్ణయించడానికి మోడల్‌కు ఒక సూత్రబద్ధమైన మార్గం అవసరం.

Instruction Hierarchy ఎందుకు కష్టమైంది

సిద్ధాంతపరంగా పరిష్కారం సులభం: system prompt ఎల్లప్పుడూ user input కంటే ప్రాధాన్యం పొందాలి, అది wiederum బాహ్య మూలాల కంటెంట్ కంటే ప్రాధాన్యం పొందాలి. కానీ ఆచరణలో, human feedback‌పై ప్రధానంగా శిక్షణ పొందిన language models, వ్యతిరేక ఒత్తిడిలో ఈ hierarchies‌ను నిలబెట్టుకోవడంలో ఆశ్చర్యకరంగా బలహీనంగా ఉన్నాయని తేలింది.

దాడి చేసే వారు ఈ బలహీనతను విస్తృతంగా ఉపయోగించుకున్నారు. Prompt injection attacks, అంటే ఒక webpage లేదా documentలో దాచిన దుష్ట వచనం AIని తన system prompt‌ను విస్మరించి కొత్త directives‌ను అనుసరించమని చెప్పడం, అనేక వాస్తవ ప్రపంచ డిప్లాయ్‌మెంట్‌లలో AI agents‌ను దెబ్బతీశాయి. ఈ దాడులు తరచుగా చాలా సులభంగా ఉంటాయి, మరియు సాధారణంగా హానికరం కానట్లు కనిపించే కంటెంట్‌లో ignore all previous instructions వంటి వాక్యాలను ఉపయోగిస్తాయి.

IH-Challenge, instruction hierarchy అనుసరణను తీవ్రంగా పరీక్షించేందుకు ప్రత్యేకంగా రూపొందించిన training examples‌ను ఉత్పత్తి చేసి దీన్ని పరిష్కరిస్తుంది. ఈ dataset‌లో, తక్కువ-నమ్మకం మూలాల నుండి వచ్చే వ్యతిరేక సూచనలు, అధిక-నమ్మకం system prompts‌కు నేరుగా విరుద్ధంగా ఉండే పరిస్థితులు ఉంటాయి; దీని ద్వారా మోడల్ ఈ మానిప్యులేషన్ ప్రయత్నాలను గుర్తించి ప్రతిఘటించడం నేర్చుకుంటుంది.

మెరుగుదల యొక్క మూడు ఆధారస్తంభాలు

OpenAI మూడు వేర్వేరు పరిమాణాల్లో మెరుగుదలలను నివేదిస్తోంది. మొదటిది, instruction hierarchy adherence: IH-Challenge‌తో శిక్షణ పొందిన మోడళ్లు, conflicting user instructions‌ను ఎదుర్కొన్నప్పుడు system prompt directives‌ను అనుసరించే అవకాశం గణనీయంగా ఎక్కువగా ఉంటుంది. రెండవది, safety steerability: operators OpenAI policies ద్వారా స్థాపితమైన పరిమితుల లోపల మోడల్ ప్రవర్తనను మరింత విశ్వసనీయంగా అనుకూలీకరించగలరు. మూడవది, prompt injection resistance: direct మరియు indirect రూపాల్లో injection attacks‌కు మోడళ్లు గణనీయంగా తక్కువ సున్నితత్వాన్ని చూపుతాయి.

ఈ పరిశోధన, IH-Challenge శిక్షణలో ఉపయోగించిన నిర్దిష్ట పరిస్థితులను మించి కూడా సాధారణీకరిస్తుందని కనుగొంది. మోడళ్లు trust levels యొక్క మరింత బలమైన అంతర్గత ప్రతినిధిని అభివృద్ధి చేస్తున్నట్లు కనిపిస్తోంది, మరియు శిక్షణ సమయంలో చూడని కొత్త attack patterns‌కు కూడా నేర్చుకున్న hierarchyని వర్తింపజేస్తున్నాయి.

AI Agent డిప్లాయ్‌మెంట్‌కు ప్రభావాలు

ఈ పని కీలక సమయంలో వచ్చింది. AI agents email, browsers, code execution environments, మరియు enterprise software‌కు ప్రవేశం పొందుతున్న కొద్దీ, విజయవంతమైన prompt injection attacks యొక్క పరిణామాలు చిన్న ఇబ్బందుల నుంచి విపత్తుల వరకు పెరుగుతున్నాయి. దుష్ట webpage ద్వారా hijack చేయగలిగే ఒక agent, సున్నితమైన data‌ను లీక్ చేయగలదు, credentials‌ను exfiltrate చేయగలదు, లేదా పెద్ద స్థాయిలో విధ్వంసకర చర్యలు తీసుకోగలదు.

IH-Challenge ఒక పెద్ద పజిల్‌లోని ఒక భాగం మాత్రమే. training స్థాయిలో ఉన్న technical defenses‌ను architectural safeguards‌తో కలపాలి, ఉదాహరణకు sandboxed execution environments, అధిక-ప్రమాద చర్యల కోసం confirmation gates, మరియు tool permissions‌ను జాగ్రత్తగా పరిమితం చేయడం, తద్వారా అర్థవంతమైన రక్షణ లభిస్తుంది. కానీ మోడల్‌లోనే నిర్మితమైన పునాది స్థాయి రక్షణగా, ఇది baselineను గణనీయంగా పెంచుతుంది.

ఈ వ్యాసం OpenAI నివేదికల ఆధారంగా ఉంది. మూల వ్యాసాన్ని చదవండి.

Originally published on openai.com