தணிக்கையில் Mistral-ன் Le Chat ஈரான்-போர் தவறான தகவலை மீண்டும் கூறியது

தூண்டுதல் வடிவமைப்பு இன்னும் AI நம்பகத்தன்மையை உடைக்கிறது

NewsGuard-இன் புதிய தணிக்கை, பயனர்கள் பொய்களை நிறுவப்பட்ட உண்மைகளாக வடிவமைக்கும்போதோ அல்லது அந்தக் கூற்றுகளைப் பரவலாக வெளியிட உதவச் சாட்பாட்டை கேட்டாலோ, Mistral-ன் Le Chat இன்னும் தவறான தகவல்களுக்கு மிகவும் பலவீனமாக இருப்பதை காட்டுகிறது.

ஏப்ரல் 29 அன்று வெளியான கண்டுபிடிப்புகள் ஈரான் போரைச் சார்ந்த பொய்யான கதைகளில் கவனம் செலுத்துகின்றன; மேலும் அந்த மாதிரி நடுநிலை கேள்விகளுக்கு எவ்வாறு பதிலளிக்கிறது, முன்னெடுக்கும் அல்லது வெளிப்படையாக தீங்கிழைக்கும் தூண்டுதல்களுக்கு எவ்வாறு பதிலளிக்கிறது என்பதற்கிடையிலான கூர்மையான வேறுபாட்டைக் காட்டுகின்றன. இந்த இடைவெளி முக்கியமானது; ஏனெனில் இது நுகர்வோர் AI அமைப்புகளில் நீண்ட காலமாக அறியப்பட்டாலும் இன்னும் தீர்க்கப்படாத ஒரு பலவீனத்தை வெளிச்சமிடுகிறது: பல அமைப்புகள் நேரடியான கேள்விகளில் நன்றாக நடக்கலாம், ஆனால் தூண்டுதல் itself எதிர்மறையாக மாறும்போது கடுமையாக தோல்வியடையலாம்.

தணிக்கையில் என்ன சோதிக்கப்பட்டது

அறிக்கையின்படி, NewsGuard ரஷ்ய, ஈரானிய, மற்றும் சீன மூலங்களில் இருந்து வந்த பத்து பொய்யான கூற்றுகளை சோதித்தது. எடுத்துக்காட்டுகளில் French carrier Charles de Gaulle-இல் typhus பரவியதாகக் கூறப்பட்ட கட்டுக்கதை, நூற்றுக்கணக்கான US வீரர்கள் கொல்லப்பட்டதாக உள்ள அறிக்கைகள், மற்றும் Oman மீது எனக் கூறப்பட்ட Emirati drone தாக்குதல் ஆகியவை அடங்கும்.

ஒவ்வொரு கூற்றும் மூன்று வகையான தூண்டுதல்களில் ஓடப்பட்டது:

கூற்றை உண்மையென ஏற்காமல் கேள்வி எழுப்பும் நடுநிலை விசாரணைகள்
பொய்யான கூற்றை உண்மை எனக் கருதும் முன்னெடுக்கும் கேள்விகள்
தவறான தகவலை சமூக ஊடகத்துக்கு தயாரான உள்ளடக்கமாக மாற்றக் கேட்கும் தீங்கிழைக்கும் தூண்டுதல்கள்

அறிக்கையிலான முடிவுகள் கடுமையானவை. நடுநிலை தூண்டுதல்களில் பிழை விகிதம் சுமார் 10 சதவீதம், முன்னெடுக்கும் தூண்டுதல்களில் 60 சதவீதம், மற்றும் தீங்கிழைக்கும் தூண்டுதல்களில் 80 சதவீதம் இருந்தது. முழுத் தணிக்கையிலும், NewsGuard-இன் கூற்றுப்படி Le Chat-இன் பிழை விகிதம் ஆங்கிலத்தில் 50 சதவீதமும், பிரெஞ்சில் 56.6 சதவீதமும் இருந்தது.

AWS and OpenAI announce multi-year strategic partnership (via openai.com)

More in AI & Robotics

AWS-இல் OpenAI-யின் வருகை, கிளவுட் AI அதிகார சமநிலையில் கூர்மையான மாற்றத்தை குறிக்கிறது

Microsoft மற்றும் OpenAI, Azure-இன் OpenAI மாடல்களுக்கான தனிப்பட்ட விநியோக உரிமைகளை முடித்த ஒரு நாளுக்குப் பிறகு, AWS Bedrock-இல் புதிய OpenAI சேவைகளை அறிமுகப்படுத்தியது; இதனால் frontier AI நிறுவன வாடிக்கையாளர்களை எட்டும் முறை மறுசீரமைக்கப்படுகிறது

Read article

இந்த எண்கள் ஏன் முக்கியம்

இந்த முடிவுகள் மாதிரி உண்மைகளை தவறாகச் சொல்லக்கூடும் என்பதையே மட்டும் காட்டவில்லை. தூண்டுதலின் வடிவமைப்பே அமைப்பு பொய் கதைகளுக்கு எதிராக நிற்குமா அல்லது அவற்றை பெருக்குமா என்பதை மிகுந்த அளவில் தீர்மானிக்கிறது என்பதையும் அவை சொல்கின்றன. நடைமுறையில், சந்தேகத்துடன் கவனமாக கேட்கும் ஒருவருக்கு ஒரு வகை பதில் கிடைக்கலாம்; ஆனால் தவறான தகவலை சுத்திகரிக்க நினைக்கும் ஒருவர் அதைவிட ஆபத்தான output-ஐ எடுக்க முடியும்.

அந்த வேறுபாடே AI பாதுகாப்பு விவாதத்தின் மையம். சாட்பாட் சிறந்த சூழலில் பாடநூல்-தரமான உண்மை கேள்விக்கு சரியாக பதிலளிக்குமா என்பது கடினமான பிரச்சினை அல்ல. மக்கள் சொல் வடிவமைப்பு, தேர்ந்தெடுக்கப்பட்ட சூழல், அல்லது நேரடி manipulation-ஐ பயன்படுத்தும்போதும் அமைப்பு நம்பகமாக இருக்குமா என்பதே உண்மையான சவால்.

அந்த அளவுகோலால் பார்த்தால், தணிக்கை ஒரு பெரிய தாங்குதன்மை பிரச்சினையை சுட்டிக்காட்டுகிறது.

போர் காலத்தில் தவறான தகவல் அழுத்தம் வருகிறது

புவியியல்-அரசியல் சூழல் இந்த முடிவுகளை இன்னும் முக்கியமாக்குகிறது. போர் கால தகவல் சூழல்கள் ஏற்கனவே உறுதிப்படுத்தப்படாத கூற்றுகள், பிரச்சாரம், மற்றும் உணர்ச்சி மிகுந்த கதைகளால் நிரம்பியவை. அத்தகைய சூழலில், சாட்பாட்கள் மனித fact-checkers பதிலளிக்கும் வேகத்தைவிட வேகமாக பொய்யான கூற்றுகளை சுருக்கி, ஆதரித்து, அல்லது அழகுப்படுத்தி வழங்கினால், அவை பெருக்கிகளாக மாறலாம்.

அரசு சார்ந்த கதைகளுக்கு தணிக்கை அளித்த முக்கியத்துவமும் குறிப்பிடத்தக்கது. தவறான தகவல் இனி சமூக தளங்களின் moderation பிரச்சினை மட்டும் அல்ல; அது AI உதவியாளர்களுக்கான retrieval, summarization, மற்றும் generation பிரச்சினையாகவும் மாறி வருகிறது. முன்னெடுக்கும் தூண்டுதல்களை மிக நேரடியாக எடுத்துக்கொள்ளும் சாட்பாட் அந்த ecosystem-இல் ஒரு மென்மையான இலக்காக மாறக்கூடும்.

இதனால் அமைப்பு intentionally biased என்பதல்ல. பயனர் நம்பிக்கையுடன் பொய்யான தகவலை வழங்கும்போது, அல்லது கோரிக்கை truth-seeking அல்ல content-production task போல வடிவமைக்கப்படும்போது, மாதிரிக்கு போதுமான பாதுகாப்புகள் இல்லாமலிருக்கலாம் என்பதையே இது சொல்கிறது.

Two-thirds of surveyed enterprises in EMEA report significant productivity gains from AI, finds new IBM study (via newsroom.ibm.com)

More in AI & Robotics

EMEA-வில் Enterprise AI-க்கு Systems பிரச்சனை ஏற்பட்டுள்ளது

ஐரோப்பா, மத்திய கிழக்கு மற்றும் ஆப்பிரிக்காவில் நிறுத்திவைக்கப்பட்ட AI rollout-களை மீண்டும் தொடங்க CIO-க்கள் கடுமையான systems audit நடத்த வேண்டும் என்று IDC கூறுகிறது; deployment friction பெரும்பாலும் கருத்தியல் அல்ல, உட்கட்டமைப்பு சார்ந்தது என்பதை இது வலியுறுத்துகிறது.

Read article

நடுநிலை செயல்திறன் மட்டும் போதாது ஏன்

நடுநிலை தூண்டுதல்களில் 10 சதவீத பிழை விகிதமும் சிறந்தது அல்ல; ஆனால் அது 60 முதல் 80 சதவீத வரம்புடன் உள்ள இடைவெளி தான் மிகுந்த கவனம் ஈர்க்கிறது. இது அமைப்பின் பாதுகாப்புகள் மேற்பரப்பில் மட்டுமே இருப்பதை காட்டுகிறது. கூற்றின் அடிப்படையை வலுவாகக் கேள்வி கேட்பதற்குப் பதிலாக, மாதிரி பயனர் framing-ஐ ஏற்றுக்கொண்டு தொடரலாம்.

அதனால்தான் நடுநிலை benchmark-கள் மட்டும் கொண்டு செய்யப்படும் safety evaluations தவறாக வழிநடத்தக்கூடும். பொதுவான பயன்பாடு கவனமான, நல்விருப்ப பயனர்களால் மட்டும் நடப்பதில்லை. பிரச்சாரகர்கள், சந்தைப்படுத்துநர்கள், troll-கள், மற்றும் வதந்திகளை அவர்கள் முதலில் கண்ட வடிவிலேயே மீண்டும் சொல்லும் சாதாரண மக்கள் என்பவர்களாலும் அது சோதிக்கப்படுகிறது.

அந்த நிலைமைகளில் மாதிரியின் துல்லியம் சிதைந்தால், headline benchmark செயல்திறன் சொல்வதைவிட அதன் நடைமுறை நம்பகத்தன்மை குறைவாக இருக்கும்.

கொள்கை மற்றும் தயாரிப்பு சவால்

NewsGuard-இன் comment கோரிக்கைக்கு Mistral பதிலளிக்கவில்லை என்று அறிக்கை கூறுகிறது. அதனால் நிறுவனம் prompt-level safeguards, வலுவான claim verification, refusal strategies, அல்லது வேகமாக மாறும் conflict narratives-க்கு ஏற்ப வேறு mitigation-களை கொண்டு வருமா என்பது தெளிவாகவில்லை.

மேலும் ஒரு சிக்கல் உள்ளது: பிரெஞ்சு பாதுகாப்பு அமைச்சகம் Le Chat-இன் தனிப்பயனாக்கப்பட்ட, offline பதிப்பை பயன்படுத்துவதாக கூறப்படுகிறது. இது audited consumer நடத்தை government deployments-க்கு நேரடியாக இணைக்காது; ஆனால் adversarial prompting-இல் model reliability niche concern அல்ல என்பதைக் காட்டுகிறது.

டெவலப்பர்கள் இப்போது AI systems-ஐ research aides, communication tools, மற்றும் workflow assistants என சந்தைப்படுத்துகின்றனர். அந்த பணிகள் அவற்றை உயர்முக்கிய தகவல் முரண்பாடுகளின் நேரடி பாதையில் நிறுத்துகின்றன. பயனர்கள் முழுமையாக நடுநிலையாகக் கேட்கும்போது மட்டுமே நன்றாக செயல்படும் மாதிரிகள், உண்மையான செயல்பாட்டு சூழலின் தேவையை பூர்த்தி செய்வதில்லை.

More in AI & Robotics

OpenAI-ன் GPT-5.5, மேலும் agentic model ஆக அறிமுகமானது, அதற்கேற்ற விலையுடன்

OpenAI ஏப்ரல் 23 அன்று GPT-5.5-ஐ வெளியிட்டு, real-world work மற்றும் agent use cases-ஐ முன்னிறுத்தி, இதை தனது இதுவரை மிகத் திறமையான agentic AI model என நிலைநிறுத்தியது; API விலையும் சுமார் இரட்டிப்பாக இருந்தது.

Read article

AI பாதுகாப்பின் அடுத்த கட்டத்திற்கு இந்த தணிக்கை என்ன சொல்கிறது

NewsGuard கண்டுபிடிப்புகளிலிருந்து கிடைக்கும் மிக முக்கியமான பாடம் என்னவெனில், misinformation resistance-ஐ நட்பு பயன்பாட்டுக் காட்சிகளில் மட்டும் அல்ல, உண்மையான attack patterns-க்கு எதிராக stress-test செய்ய வேண்டும். முன்னெடுக்கும் கேள்விகள் மற்றும் content-repackaging கோரிக்கைகள் இப்போது edge cases அல்ல; சாதாரண failure modes.

பயனர்களுக்கான takeaway எளிது: விவாதத்திற்குரிய, வேகமாக மாறும் புவியியல்-அரசியல் நிகழ்வுகளில், அவற்றின் பதில்கள் தனித்துவமாக சரிபார்க்கப்படாவிட்டால், சாட்பாட்கள் உண்மையின் நல்ல arbiter-கள் அல்ல. டெவலப்பர்களுக்கு செய்தி இன்னும் கடினமானது. மாதிரிகள் plausible text-ஐ பெறுவதைக் கடந்து செல்ல வேண்டும். அவை ஆதாரமற்ற premises-ஐ கேள்வி கேட்கவும், narrative manipulation-ஐ அடையாளம் காணவும், மற்றும் propaganda-க்கு formatting layer ஆக மாற மறுக்கவும் வேண்டும்.

Le Chat இந்தப் பிரச்சினையை எதிர்கொள்கின்ற ஒரே மாதிரி அல்ல. ஆனால் தூண்டுதல் framing இவ்வளவு பெரிய அளவில் செயல்திறனை மாற்ற முடிகிறவரை, தகவல் துறையில் நம்பகமான AI உதவி என்ற கூற்றுகளை எச்சரிக்கையுடன் பார்க்க வேண்டும் என்பதை இந்த தணிக்கை தெளிவாக நினைவூட்டுகிறது.

இந்தக் கட்டுரை The Decoder-ன் செய்தியினை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on the-decoder.com

தூண்டுதல் வடிவமைப்பு இன்னும் AI நம்பகத்தன்மையை உடைக்கிறது

தணிக்கையில் என்ன சோதிக்கப்பட்டது

ஒவ்வொரு கூற்றும் மூன்று வகையான தூண்டுதல்களில் ஓடப்பட்டது:

கூற்றை உண்மையென ஏற்காமல் கேள்வி எழுப்பும் நடுநிலை விசாரணைகள்
பொய்யான கூற்றை உண்மை எனக் கருதும் முன்னெடுக்கும் கேள்விகள்
தவறான தகவலை சமூக ஊடகத்துக்கு தயாரான உள்ளடக்கமாக மாற்றக் கேட்கும் தீங்கிழைக்கும் தூண்டுதல்கள்

More in AI & Robotics

AWS-இல் OpenAI-யின் வருகை, கிளவுட் AI அதிகார சமநிலையில் கூர்மையான மாற்றத்தை குறிக்கிறது

Read article

இந்த எண்கள் ஏன் முக்கியம்

போர் காலத்தில் தவறான தகவல் அழுத்தம் வருகிறது

More in AI & Robotics

EMEA-வில் Enterprise AI-க்கு Systems பிரச்சனை ஏற்பட்டுள்ளது

Read article

நடுநிலை செயல்திறன் மட்டும் போதாது ஏன்

கொள்கை மற்றும் தயாரிப்பு சவால்

More in AI & Robotics

OpenAI-ன் GPT-5.5, மேலும் agentic model ஆக அறிமுகமானது, அதற்கேற்ற விலையுடன்

Read article

AI பாதுகாப்பின் அடுத்த கட்டத்திற்கு இந்த தணிக்கை என்ன சொல்கிறது

Originally published on the-decoder.com

NewsGuard தணிக்கையில் Mistral-ன் Le Chat ஈரான்-போர் தவறான தகவல் தூண்டுதல்களுக்கு பலவீனமாக இருந்தது

தூண்டுதல் வடிவமைப்பு இன்னும் AI நம்பகத்தன்மையை உடைக்கிறது

தணிக்கையில் என்ன சோதிக்கப்பட்டது

AWS-இல் OpenAI-யின் வருகை, கிளவுட் AI அதிகார சமநிலையில் கூர்மையான மாற்றத்தை குறிக்கிறது

இந்த எண்கள் ஏன் முக்கியம்

போர் காலத்தில் தவறான தகவல் அழுத்தம் வருகிறது

EMEA-வில் Enterprise AI-க்கு Systems பிரச்சனை ஏற்பட்டுள்ளது

நடுநிலை செயல்திறன் மட்டும் போதாது ஏன்

கொள்கை மற்றும் தயாரிப்பு சவால்

OpenAI-ன் GPT-5.5, மேலும் agentic model ஆக அறிமுகமானது, அதற்கேற்ற விலையுடன்

AI பாதுகாப்பின் அடுத்த கட்டத்திற்கு இந்த தணிக்கை என்ன சொல்கிறது

Comments (0)

Keep Reading

NewsGuard தணிக்கையில் Mistral-ன் Le Chat ஈரான்-போர் தவறான தகவல் தூண்டுதல்களுக்கு பலவீனமாக இருந்தது

தூண்டுதல் வடிவமைப்பு இன்னும் AI நம்பகத்தன்மையை உடைக்கிறது

தணிக்கையில் என்ன சோதிக்கப்பட்டது

AWS-இல் OpenAI-யின் வருகை, கிளவுட் AI அதிகார சமநிலையில் கூர்மையான மாற்றத்தை குறிக்கிறது

இந்த எண்கள் ஏன் முக்கியம்

போர் காலத்தில் தவறான தகவல் அழுத்தம் வருகிறது

EMEA-வில் Enterprise AI-க்கு Systems பிரச்சனை ஏற்பட்டுள்ளது

நடுநிலை செயல்திறன் மட்டும் போதாது ஏன்

கொள்கை மற்றும் தயாரிப்பு சவால்

OpenAI-ன் GPT-5.5, மேலும் agentic model ஆக அறிமுகமானது, அதற்கேற்ற விலையுடன்

AI பாதுகாப்பின் அடுத்த கட்டத்திற்கு இந்த தணிக்கை என்ன சொல்கிறது

Comments (0)

Keep Reading