AI మోడళ్లను సరైన సూచనలను అనుసరించ도록 నేర్పడం
OpenAI IH-Challenge అనే కొత్త శిక్షణ విధానంపై పరిశోధనను ప్రచురించింది, ఇది అమలులో ఉన్న AI వ్యవస్థల్లో అత్యంత నిరంతరంగా ఎదురయ్యే సమస్యల్లో ఒకదాన్ని పరిష్కరించేందుకు రూపొందించబడింది: డెవలపర్లు, ఆపరేటర్లు, మరియు ధృవీకరించబడిన వినియోగదారుల వంటి విశ్వసనీయ పక్షాల సూచనలను, వెబ్ కంటెంట్ లేదా tool outputs వంటి నమ్మదగని చానెళ్ల ద్వారా వచ్చే సాధ్యమైన వ్యతిరేక సూచనల కంటే మోడళ్లు విశ్వసనీయంగా ముందుగా అనుసరించేలా చేయడం.
ఈ పని AI safety community instruction hierarchy problem అని పిలిచే సమస్యను పరిష్కరిస్తుంది. ఒక agentగా పనిచేసే పెద్ద భాషా మోడల్ ఒకేసారి అనేక మూలాల నుండి సూచనలను పొందవచ్చు: డెవలపర్ నుండి ఒక system prompt, వినియోగదారు సూచనలు, మరియు వెబ్ లేదా బాహ్య tools నుండి పొందిన కంటెంట్. ఆ సూచనలు పరస్పరం విరుద్ధంగా ఉన్నప్పుడు, ఏదిని అనుసరించాలో నిర్ణయించడానికి మోడల్కు ఒక సూత్రబద్ధమైన మార్గం అవసరం.
Instruction Hierarchy ఎందుకు కష్టమైంది
సిద్ధాంతపరంగా పరిష్కారం సులభం: system prompt ఎల్లప్పుడూ user input కంటే ప్రాధాన్యం పొందాలి, అది wiederum బాహ్య మూలాల కంటెంట్ కంటే ప్రాధాన్యం పొందాలి. కానీ ఆచరణలో, human feedbackపై ప్రధానంగా శిక్షణ పొందిన language models, వ్యతిరేక ఒత్తిడిలో ఈ hierarchiesను నిలబెట్టుకోవడంలో ఆశ్చర్యకరంగా బలహీనంగా ఉన్నాయని తేలింది.
దాడి చేసే వారు ఈ బలహీనతను విస్తృతంగా ఉపయోగించుకున్నారు. Prompt injection attacks, అంటే ఒక webpage లేదా documentలో దాచిన దుష్ట వచనం AIని తన system promptను విస్మరించి కొత్త directivesను అనుసరించమని చెప్పడం, అనేక వాస్తవ ప్రపంచ డిప్లాయ్మెంట్లలో AI agentsను దెబ్బతీశాయి. ఈ దాడులు తరచుగా చాలా సులభంగా ఉంటాయి, మరియు సాధారణంగా హానికరం కానట్లు కనిపించే కంటెంట్లో ignore all previous instructions వంటి వాక్యాలను ఉపయోగిస్తాయి.
IH-Challenge, instruction hierarchy అనుసరణను తీవ్రంగా పరీక్షించేందుకు ప్రత్యేకంగా రూపొందించిన training examplesను ఉత్పత్తి చేసి దీన్ని పరిష్కరిస్తుంది. ఈ datasetలో, తక్కువ-నమ్మకం మూలాల నుండి వచ్చే వ్యతిరేక సూచనలు, అధిక-నమ్మకం system promptsకు నేరుగా విరుద్ధంగా ఉండే పరిస్థితులు ఉంటాయి; దీని ద్వారా మోడల్ ఈ మానిప్యులేషన్ ప్రయత్నాలను గుర్తించి ప్రతిఘటించడం నేర్చుకుంటుంది.
మెరుగుదల యొక్క మూడు ఆధారస్తంభాలు
OpenAI మూడు వేర్వేరు పరిమాణాల్లో మెరుగుదలలను నివేదిస్తోంది. మొదటిది, instruction hierarchy adherence: IH-Challengeతో శిక్షణ పొందిన మోడళ్లు, conflicting user instructionsను ఎదుర్కొన్నప్పుడు system prompt directivesను అనుసరించే అవకాశం గణనీయంగా ఎక్కువగా ఉంటుంది. రెండవది, safety steerability: operators OpenAI policies ద్వారా స్థాపితమైన పరిమితుల లోపల మోడల్ ప్రవర్తనను మరింత విశ్వసనీయంగా అనుకూలీకరించగలరు. మూడవది, prompt injection resistance: direct మరియు indirect రూపాల్లో injection attacksకు మోడళ్లు గణనీయంగా తక్కువ సున్నితత్వాన్ని చూపుతాయి.
ఈ పరిశోధన, IH-Challenge శిక్షణలో ఉపయోగించిన నిర్దిష్ట పరిస్థితులను మించి కూడా సాధారణీకరిస్తుందని కనుగొంది. మోడళ్లు trust levels యొక్క మరింత బలమైన అంతర్గత ప్రతినిధిని అభివృద్ధి చేస్తున్నట్లు కనిపిస్తోంది, మరియు శిక్షణ సమయంలో చూడని కొత్త attack patternsకు కూడా నేర్చుకున్న hierarchyని వర్తింపజేస్తున్నాయి.
AI Agent డిప్లాయ్మెంట్కు ప్రభావాలు
ఈ పని కీలక సమయంలో వచ్చింది. AI agents email, browsers, code execution environments, మరియు enterprise softwareకు ప్రవేశం పొందుతున్న కొద్దీ, విజయవంతమైన prompt injection attacks యొక్క పరిణామాలు చిన్న ఇబ్బందుల నుంచి విపత్తుల వరకు పెరుగుతున్నాయి. దుష్ట webpage ద్వారా hijack చేయగలిగే ఒక agent, సున్నితమైన dataను లీక్ చేయగలదు, credentialsను exfiltrate చేయగలదు, లేదా పెద్ద స్థాయిలో విధ్వంసకర చర్యలు తీసుకోగలదు.
IH-Challenge ఒక పెద్ద పజిల్లోని ఒక భాగం మాత్రమే. training స్థాయిలో ఉన్న technical defensesను architectural safeguardsతో కలపాలి, ఉదాహరణకు sandboxed execution environments, అధిక-ప్రమాద చర్యల కోసం confirmation gates, మరియు tool permissionsను జాగ్రత్తగా పరిమితం చేయడం, తద్వారా అర్థవంతమైన రక్షణ లభిస్తుంది. కానీ మోడల్లోనే నిర్మితమైన పునాది స్థాయి రక్షణగా, ఇది baselineను గణనీయంగా పెంచుతుంది.
ఈ వ్యాసం OpenAI నివేదికల ఆధారంగా ఉంది. మూల వ్యాసాన్ని చదవండి.
Originally published on openai.com




