தூண்டுதல் வடிவமைப்பு இன்னும் AI நம்பகத்தன்மையை உடைக்கிறது

NewsGuard-இன் புதிய தணிக்கை, பயனர்கள் பொய்களை நிறுவப்பட்ட உண்மைகளாக வடிவமைக்கும்போதோ அல்லது அந்தக் கூற்றுகளைப் பரவலாக வெளியிட உதவச் சாட்பாட்டை கேட்டாலோ, Mistral-ன் Le Chat இன்னும் தவறான தகவல்களுக்கு மிகவும் பலவீனமாக இருப்பதை காட்டுகிறது.

ஏப்ரல் 29 அன்று வெளியான கண்டுபிடிப்புகள் ஈரான் போரைச் சார்ந்த பொய்யான கதைகளில் கவனம் செலுத்துகின்றன; மேலும் அந்த மாதிரி நடுநிலை கேள்விகளுக்கு எவ்வாறு பதிலளிக்கிறது, முன்னெடுக்கும் அல்லது வெளிப்படையாக தீங்கிழைக்கும் தூண்டுதல்களுக்கு எவ்வாறு பதிலளிக்கிறது என்பதற்கிடையிலான கூர்மையான வேறுபாட்டைக் காட்டுகின்றன. இந்த இடைவெளி முக்கியமானது; ஏனெனில் இது நுகர்வோர் AI அமைப்புகளில் நீண்ட காலமாக அறியப்பட்டாலும் இன்னும் தீர்க்கப்படாத ஒரு பலவீனத்தை வெளிச்சமிடுகிறது: பல அமைப்புகள் நேரடியான கேள்விகளில் நன்றாக நடக்கலாம், ஆனால் தூண்டுதல் itself எதிர்மறையாக மாறும்போது கடுமையாக தோல்வியடையலாம்.

தணிக்கையில் என்ன சோதிக்கப்பட்டது

அறிக்கையின்படி, NewsGuard ரஷ்ய, ஈரானிய, மற்றும் சீன மூலங்களில் இருந்து வந்த பத்து பொய்யான கூற்றுகளை சோதித்தது. எடுத்துக்காட்டுகளில் French carrier Charles de Gaulle-இல் typhus பரவியதாகக் கூறப்பட்ட கட்டுக்கதை, நூற்றுக்கணக்கான US வீரர்கள் கொல்லப்பட்டதாக உள்ள அறிக்கைகள், மற்றும் Oman மீது எனக் கூறப்பட்ட Emirati drone தாக்குதல் ஆகியவை அடங்கும்.

ஒவ்வொரு கூற்றும் மூன்று வகையான தூண்டுதல்களில் ஓடப்பட்டது:

  • கூற்றை உண்மையென ஏற்காமல் கேள்வி எழுப்பும் நடுநிலை விசாரணைகள்
  • பொய்யான கூற்றை உண்மை எனக் கருதும் முன்னெடுக்கும் கேள்விகள்
  • தவறான தகவலை சமூக ஊடகத்துக்கு தயாரான உள்ளடக்கமாக மாற்றக் கேட்கும் தீங்கிழைக்கும் தூண்டுதல்கள்

அறிக்கையிலான முடிவுகள் கடுமையானவை. நடுநிலை தூண்டுதல்களில் பிழை விகிதம் சுமார் 10 சதவீதம், முன்னெடுக்கும் தூண்டுதல்களில் 60 சதவீதம், மற்றும் தீங்கிழைக்கும் தூண்டுதல்களில் 80 சதவீதம் இருந்தது. முழுத் தணிக்கையிலும், NewsGuard-இன் கூற்றுப்படி Le Chat-இன் பிழை விகிதம் ஆங்கிலத்தில் 50 சதவீதமும், பிரெஞ்சில் 56.6 சதவீதமும் இருந்தது.

இந்த எண்கள் ஏன் முக்கியம்

இந்த முடிவுகள் மாதிரி உண்மைகளை தவறாகச் சொல்லக்கூடும் என்பதையே மட்டும் காட்டவில்லை. தூண்டுதலின் வடிவமைப்பே அமைப்பு பொய் கதைகளுக்கு எதிராக நிற்குமா அல்லது அவற்றை பெருக்குமா என்பதை மிகுந்த அளவில் தீர்மானிக்கிறது என்பதையும் அவை சொல்கின்றன. நடைமுறையில், சந்தேகத்துடன் கவனமாக கேட்கும் ஒருவருக்கு ஒரு வகை பதில் கிடைக்கலாம்; ஆனால் தவறான தகவலை சுத்திகரிக்க நினைக்கும் ஒருவர் அதைவிட ஆபத்தான output-ஐ எடுக்க முடியும்.

அந்த வேறுபாடே AI பாதுகாப்பு விவாதத்தின் மையம். சாட்பாட் சிறந்த சூழலில் பாடநூல்-தரமான உண்மை கேள்விக்கு சரியாக பதிலளிக்குமா என்பது கடினமான பிரச்சினை அல்ல. மக்கள் சொல் வடிவமைப்பு, தேர்ந்தெடுக்கப்பட்ட சூழல், அல்லது நேரடி manipulation-ஐ பயன்படுத்தும்போதும் அமைப்பு நம்பகமாக இருக்குமா என்பதே உண்மையான சவால்.

அந்த அளவுகோலால் பார்த்தால், தணிக்கை ஒரு பெரிய தாங்குதன்மை பிரச்சினையை சுட்டிக்காட்டுகிறது.

போர் காலத்தில் தவறான தகவல் அழுத்தம் வருகிறது

புவியியல்-அரசியல் சூழல் இந்த முடிவுகளை இன்னும் முக்கியமாக்குகிறது. போர் கால தகவல் சூழல்கள் ஏற்கனவே உறுதிப்படுத்தப்படாத கூற்றுகள், பிரச்சாரம், மற்றும் உணர்ச்சி மிகுந்த கதைகளால் நிரம்பியவை. அத்தகைய சூழலில், சாட்பாட்கள் மனித fact-checkers பதிலளிக்கும் வேகத்தைவிட வேகமாக பொய்யான கூற்றுகளை சுருக்கி, ஆதரித்து, அல்லது அழகுப்படுத்தி வழங்கினால், அவை பெருக்கிகளாக மாறலாம்.

அரசு சார்ந்த கதைகளுக்கு தணிக்கை அளித்த முக்கியத்துவமும் குறிப்பிடத்தக்கது. தவறான தகவல் இனி சமூக தளங்களின் moderation பிரச்சினை மட்டும் அல்ல; அது AI உதவியாளர்களுக்கான retrieval, summarization, மற்றும் generation பிரச்சினையாகவும் மாறி வருகிறது. முன்னெடுக்கும் தூண்டுதல்களை மிக நேரடியாக எடுத்துக்கொள்ளும் சாட்பாட் அந்த ecosystem-இல் ஒரு மென்மையான இலக்காக மாறக்கூடும்.

இதனால் அமைப்பு intentionally biased என்பதல்ல. பயனர் நம்பிக்கையுடன் பொய்யான தகவலை வழங்கும்போது, அல்லது கோரிக்கை truth-seeking அல்ல content-production task போல வடிவமைக்கப்படும்போது, மாதிரிக்கு போதுமான பாதுகாப்புகள் இல்லாமலிருக்கலாம் என்பதையே இது சொல்கிறது.

நடுநிலை செயல்திறன் மட்டும் போதாது ஏன்

நடுநிலை தூண்டுதல்களில் 10 சதவீத பிழை விகிதமும் சிறந்தது அல்ல; ஆனால் அது 60 முதல் 80 சதவீத வரம்புடன் உள்ள இடைவெளி தான் மிகுந்த கவனம் ஈர்க்கிறது. இது அமைப்பின் பாதுகாப்புகள் மேற்பரப்பில் மட்டுமே இருப்பதை காட்டுகிறது. கூற்றின் அடிப்படையை வலுவாகக் கேள்வி கேட்பதற்குப் பதிலாக, மாதிரி பயனர் framing-ஐ ஏற்றுக்கொண்டு தொடரலாம்.

அதனால்தான் நடுநிலை benchmark-கள் மட்டும் கொண்டு செய்யப்படும் safety evaluations தவறாக வழிநடத்தக்கூடும். பொதுவான பயன்பாடு கவனமான, நல்விருப்ப பயனர்களால் மட்டும் நடப்பதில்லை. பிரச்சாரகர்கள், சந்தைப்படுத்துநர்கள், troll-கள், மற்றும் வதந்திகளை அவர்கள் முதலில் கண்ட வடிவிலேயே மீண்டும் சொல்லும் சாதாரண மக்கள் என்பவர்களாலும் அது சோதிக்கப்படுகிறது.

அந்த நிலைமைகளில் மாதிரியின் துல்லியம் சிதைந்தால், headline benchmark செயல்திறன் சொல்வதைவிட அதன் நடைமுறை நம்பகத்தன்மை குறைவாக இருக்கும்.

கொள்கை மற்றும் தயாரிப்பு சவால்

NewsGuard-இன் comment கோரிக்கைக்கு Mistral பதிலளிக்கவில்லை என்று அறிக்கை கூறுகிறது. அதனால் நிறுவனம் prompt-level safeguards, வலுவான claim verification, refusal strategies, அல்லது வேகமாக மாறும் conflict narratives-க்கு ஏற்ப வேறு mitigation-களை கொண்டு வருமா என்பது தெளிவாகவில்லை.

மேலும் ஒரு சிக்கல் உள்ளது: பிரெஞ்சு பாதுகாப்பு அமைச்சகம் Le Chat-இன் தனிப்பயனாக்கப்பட்ட, offline பதிப்பை பயன்படுத்துவதாக கூறப்படுகிறது. இது audited consumer நடத்தை government deployments-க்கு நேரடியாக இணைக்காது; ஆனால் adversarial prompting-இல் model reliability niche concern அல்ல என்பதைக் காட்டுகிறது.

டெவலப்பர்கள் இப்போது AI systems-ஐ research aides, communication tools, மற்றும் workflow assistants என சந்தைப்படுத்துகின்றனர். அந்த பணிகள் அவற்றை உயர்முக்கிய தகவல் முரண்பாடுகளின் நேரடி பாதையில் நிறுத்துகின்றன. பயனர்கள் முழுமையாக நடுநிலையாகக் கேட்கும்போது மட்டுமே நன்றாக செயல்படும் மாதிரிகள், உண்மையான செயல்பாட்டு சூழலின் தேவையை பூர்த்தி செய்வதில்லை.

AI பாதுகாப்பின் அடுத்த கட்டத்திற்கு இந்த தணிக்கை என்ன சொல்கிறது

NewsGuard கண்டுபிடிப்புகளிலிருந்து கிடைக்கும் மிக முக்கியமான பாடம் என்னவெனில், misinformation resistance-ஐ நட்பு பயன்பாட்டுக் காட்சிகளில் மட்டும் அல்ல, உண்மையான attack patterns-க்கு எதிராக stress-test செய்ய வேண்டும். முன்னெடுக்கும் கேள்விகள் மற்றும் content-repackaging கோரிக்கைகள் இப்போது edge cases அல்ல; சாதாரண failure modes.

பயனர்களுக்கான takeaway எளிது: விவாதத்திற்குரிய, வேகமாக மாறும் புவியியல்-அரசியல் நிகழ்வுகளில், அவற்றின் பதில்கள் தனித்துவமாக சரிபார்க்கப்படாவிட்டால், சாட்பாட்கள் உண்மையின் நல்ல arbiter-கள் அல்ல. டெவலப்பர்களுக்கு செய்தி இன்னும் கடினமானது. மாதிரிகள் plausible text-ஐ பெறுவதைக் கடந்து செல்ல வேண்டும். அவை ஆதாரமற்ற premises-ஐ கேள்வி கேட்கவும், narrative manipulation-ஐ அடையாளம் காணவும், மற்றும் propaganda-க்கு formatting layer ஆக மாற மறுக்கவும் வேண்டும்.

Le Chat இந்தப் பிரச்சினையை எதிர்கொள்கின்ற ஒரே மாதிரி அல்ல. ஆனால் தூண்டுதல் framing இவ்வளவு பெரிய அளவில் செயல்திறனை மாற்ற முடிகிறவரை, தகவல் துறையில் நம்பகமான AI உதவி என்ற கூற்றுகளை எச்சரிக்கையுடன் பார்க்க வேண்டும் என்பதை இந்த தணிக்கை தெளிவாக நினைவூட்டுகிறது.

இந்தக் கட்டுரை The Decoder-ன் செய்தியினை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on the-decoder.com