குரல் ஏஐயில் வேறொரு பந்தயம்

முன்னாள் OpenAI தலைமை தொழில்நுட்ப அதிகாரி மீரா முராட்டி நிறுவிய Thinking Machines Lab என்ற ஸ்டார்ட்அப், தனது முதல் மாதிரியின் ஒரு ஆராய்ச்சி முன்னோட்டத்தை வெளியிட்டுள்ளது; இதை இன்றைய முக்கிய குரல் உதவியாளர்கள் செயல்படும் முறைக்கு நேரடி சவாலாக நிறுவனம் முன்வைக்கிறது. நிறுவனத்தின் விளக்கத்தின்படி, இந்த அமைப்பு ஆடியோ, வீடியோ, மற்றும் உரையை ஒரே நேரத்தில் 200-மில்லிவினாடி துண்டுகளாக செயலாக்குகிறது; இதன் நோக்கம் உரையாடலை கேள்வி-பதில் தொடர்களைப் போல அல்லாமல், ஒரு திரவமான பரிமாற்றம் போல உணரச் செய்வதாகும்.

அந்த வடிவமைப்பு முடிவு முக்கியமானது, ஏனெனில் பெரும்பாலான நேரடி ஏஐ தயாரிப்புகள் இன்னும் ஒரு படிநிலைமயமான குழாய்முறையை சார்ந்துள்ளன. வேட்பாளருடன் வழங்கப்பட்ட கணக்கின்படி, தற்போதைய அமைப்புகள் தொடர்ந்து ஆடியோவைப் பெறுகின்றன, ஆனால் மைய மாதிரி முழு நேரடி தொடர்பு ஓட்டத்தை நேரடியாக அனுபவிப்பதில்லை. அதற்கு பதிலாக, வெளிப்புற கூறுகள் ஒரு பேச்சாளர் முடித்தாரா என்பதை தீர்மானித்து, அந்த உரையை தொகுத்து, பின்னர் மட்டுமே முழுமையான பதிலுக்காக மாதிரிக்கு அனுப்புகின்றன. மாதிரி பேசிக்கொண்டிருக்கும்போது, இடையூறு செய்யப்படாவிட்டால் அதன் உணர்வு செயல்பாடு பயனாக நிறுத்தப்படலாம்.

இந்த கட்டமைப்பு உட்புற வரம்பை உருவாக்குகிறது என்று Thinking Machines Lab வாதிடுகிறது. ஒரு அமைப்பு முறை எல்லைகளை காத்திருக்க வேண்டியிருந்தால், எப்போது பேச வேண்டும் என்பதை தீர்மானிக்க கீழ்நிலை உதவி கருவிகளை சார்ந்திருக்க வேண்டியிருந்தால், இயல்பான உரையாடலில் மக்கள் எதிர்பார்க்கும் நடத்தைமுறைகளை அது சமாளிக்க கடினமாகும். தேவையான போது முன்னெடுக்கும் வகையில் இடைமறிப்பு, பொருத்தமான இடங்களில் ஒரே நேர பேச்சு, மற்றும் காட்சி சூழலுக்கான நேரடி எதிர்வினைகள் ஆகியவை இதில் அடங்கும் என்று நிறுவனம் கூறுகிறது.

பழைய முறை ஏன் போதாது என்று ஸ்டார்ட்அப் நினைக்கிறது

நிறுவனத்தின் வாக்குறுதி வெறும் வேகமான மாதிரியை உருவாக்கியுள்ளோம் என்பதல்ல. ஏஐ-யில் தயாரிப்பு வடிவமைப்பு குறித்து அது ஒரு பரந்த வாதத்தை முன்வைக்கிறது. அதன் பார்வையில், இடையின்பாட்டை ஒரு பொது நோக்க மாதிரியைச் சுற்றி போர்த்தப்பட்ட மெல்லிய அடுக்காகக் கருதக் கூடாது. அது மாதிரியின் இயல்பான நடத்தைமுறையின் ஒரு பகுதியாக இருக்க வேண்டும்.

அந்த வாதம் Thinking Machines Lab-ஐ ஏஐ சந்தையில் ஒரு முக்கிய மூலோபாய நிலையில் நிறுத்துகிறது. பல நிறுவனங்கள் பெரிய மாதிரிகளை காரணமீட்டல், குறியீட்டமைப்பு, தேடல் ஆகியவற்றில் மேலும் திறமையாக மாற்றுவதில் கவனம் செலுத்தி, பின்னர் பேச்சுக்காக ஒத்திசைவு அடுக்குகளை சேர்த்து அவற்றைச் சரிசெய்துள்ளன. Thinking Machines Lab, இந்த முறையால் ஒழுங்காகக் காட்சியளிக்கும் போதிலும், அமைப்புகள் இன்னும் தெளிவாக இயந்திரத் தன்மையுடன் இருப்பதாக கூறுகிறது.

வேட்பாளர் உரையில், இந்த ஸ்டார்ட்அப் தனது அணுகுமுறையை OpenAI-யின் GPT-Realtime-2 மற்றும் Google-ன் Gemini Live போன்ற தயாரிப்புகளுடன் ஒப்பிடுகிறது. வெளிப்புற ஹார்னஸை நேரடி ஆடியோ மற்றும் வீடியோ ஓட்டங்களை நேரடியாக செயலாக்கும் மாதிரியால் மாற்றுவதன் மூலம், இந்த அமைப்பு தொடர்பாடல் தரத்தையும் தாமதத்தையும் மேம்படுத்த முடியும் என்பதே அதன் கூற்று. நிறுவனம், தனது அணுகுமுறை ஒரு வேகமான இடையின்பாட்டு மாதிரியை பின்னணி காரணமீட்டல் மாதிரியுடன் இணைக்கிறது என்றும், உடனடி உரையாடல் பதிலளிப்பையும் ஆழமான கணக்கீட்டையும் பிரிக்கும் ஒரு கட்டமைப்பை அது சுட்டிக்காட்டுகிறது என்றும் கூறுகிறது.

மாதிரி எதை செயல்படுத்தும் என எதிர்பார்க்கப்படுகிறது

மூலத்தில் உள்ள நடைமுறை உதாரணங்கள் குறிப்பிடத்தக்கவை. அதிக இயல்பான இடையின்பாட்டு மாதிரி, ஏதேனும் தவறாகத் தோன்றினால் இடையில் நிறுத்துமாறு பயனர் உதவியாளரிடம் கேட்கும் உரையாடல்களை, அல்லது பயனர் திரையில் அல்லது கேமரா காட்சியில் ஏதாவது செயலில் இருக்கும் போதே அது எதிர்வினையளிக்கும் சூழல்களை ஆதரிக்க முடியும். இது பேச்சில் ஓவர்லாப்-ஐயும் ஆதரிக்க முடியும்; அது நேரடி மொழிபெயர்ப்பு போன்ற சூழல்களில் பயனுள்ளதாக இருக்கும்.

அந்த உதாரணங்கள் குரல் இடைமுகங்கள் எவ்வாறு வளரக்கூடும் என்பதில் ஒரு ஆழ்ந்த மாற்றத்தைச் சுட்டிக்காட்டுகின்றன. பல ஆண்டுகளாக, குரல் அமைப்புகள் பயனர்களை தெளிவான, எல்லைப்படுத்தப்பட்ட கட்டளைகள் பேசுவதற்கே பழக்கப்படுத்தியுள்ளன. அடுத்த கட்டம், சந்தேகநிலை, இடையூறு, நேரமிடல், மற்றும் இணைச் சிக்னல்கள் ஆகியவற்றை ஒரு மனித கூட்டாளியைப் போல கையாளக்கூடிய அமைப்புகளைப் பொறுத்திருக்கலாம். அப்படி நடந்தால், குரல் ஏஐயில் வெற்றி பெறுவது மிகப்பெரிய அடிப்படை மாதிரி யாரிடம் உள்ளது என்பதாலேயே இல்லை; தொடர்பைவே மேலும் இயற்கையற்றதாக அல்லாமல் உணரச் செய்ய யார் முடிகிறது என்பதால்தான் முடியும்.

அதுவே Thinking Machines Lab கைப்பற்ற விரும்பும் சந்தை வாய்ப்பு. வலுவான உரை மாதிரியில் இணைக்கப்பட்ட ஒரு அம்சமாக குரலைக் காட்டுவதற்குப் பதிலாக, அது இடையின்பாட்டை ஒரு முதன்மை பிரச்சினையாகக் காட்டுகிறது. இது குறிப்பிடத்தக்கது, ஏனெனில் தற்போதைய ஏஐ தயாரிப்பு வளர்ச்சியில் உள்ள முக்கிய முன்கணிப்புகளில் ஒன்றை அது சவால் செய்கிறது: பொது நுண்ணறிவு முன்னேற்றங்கள் பின்னர் இயல்பாக இடைமுகத் தரத்தை தீர்க்கும் என்பதைக்.

வாக்குறுதி, அழுத்தம், மற்றும் அடுத்தது

இந்த வெளியீடு இன்னும் ஒரு ஆராய்ச்சி முன்னோட்டம்தான், மேலும் நிறுவனத்தின் சொந்த சூழ்நிலைகளும் முக்கியமானவை. வழங்கப்பட்ட மூலத்தில், சமீபத்தில் பல முக்கிய ஊழியர்கள் ஸ்டார்ட்அப்பை விட்டு சென்றதாக குறிப்பிடப்பட்டுள்ளது. அதனால் இந்த தொழில்நுட்ப அறிவிப்பு செயல்படுத்தல், பணியாளர் அமைப்பு, மற்றும் வலுவான ஆராய்ச்சி நிலையை நீடித்த தயாரிப்பு மற்றும் வணிகமாக மாற்ற முடியுமா என்பதற்கான கேள்விகளுடன் வருகிறது.

அப்படியிருந்தாலும், நெருக்கமாக கவனிக்கப்படும் ஏஐ ஸ்டார்ட்அப்புகளின் முதல் மாதிரி வெளியீடுகள், பரவலான பயன்பாட்டை அடைவதற்கு முன்பே துறையைப் பாதிக்கக்கூடும். Thinking Machines Lab-ன் தாமதம் மற்றும் தொடர்பாடல் தரம் குறித்த கூற்றுகள் பரந்த ஆய்வில் நிலைத்தால், போட்டியாளர்கள் ஏற்கனவே உள்ள மாதிரிகளைச் சுற்றி மேலும் கருவிகளை அடுக்குவதற்குப் பதிலாக, குரல் அமைப்பு வடிவமைப்பை கட்டமைப்பு நிலையில் மறுபரிசீலனை செய்ய வேண்டிய அழுத்தத்தை எதிர்கொள்ள நேரிடும்.

இன்னும் பெரிய தொழில்துறை தாக்கமும் உள்ளது. குரல் நீண்ட காலமாக ஏஐ-யின் மிகவும் இயல்பான இடைமுகங்களில் ஒன்றாகக் கருதப்பட்டாலும், இன்றைய உதவியாளர்கள் நடைமுறையில் பல பயனர்களுக்கு இன்னும் நெகிழ்வற்றவையாகவே உள்ளனர். ஆடியோ, வீடியோ, மற்றும் உரை முழுவதும் தொடர்ந்து உணர்ந்து, பேசிக் கொண்டு, மாற்றமடையக்கூடிய ஒரு அமைப்பு, அந்த வகையை நீண்ட காலமாக வாக்குறுதி அளிக்கப்பட்ட சூழல் சார்ந்த, உரையாடல் கணினி என்ற எண்ணத்திற்குக் கூடுதல் அருகில் கொண்டு வரும்.

இப்போதைக்கு, முக்கியக் கருத்து குறுகியதுதான், ஆனால் முக்கியமானது: துறையின் நெருக்கமான கவனத்தில் உள்ள புதிய ஆய்வகங்களில் ஒன்றானது தனது ஆரம்ப நகர்வைச் செய்துள்ளது, மேலும் அது தொடர்பாடலின் தரத்தைத் தானே போட்டிக்கான தளமாகத் தேர்ந்தெடுத்துள்ளது. மாதிரி வெளியீடுகள் நிறைந்த சந்தையில், இது ஒரு தனித்துவமான கோட்பாடு. அது நீடித்ததா என்பதைத் தீர்மானிப்பது, சுயாதீன சரிபார்ப்பு, தயாரிப்பாக்கம், மற்றும் ஆராய்ச்சி முன்னோட்டத்தைத் தாண்டி வெளியிடத் தேவையான குழுவை ஸ்டார்ட்அப் ஒன்றாக வைத்திருக்க முடியும் என்பதில்தான் இருக்கும்.

இந்த கட்டுரை The Decoder-ன் செய்தி வெளியீட்டை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on the-decoder.com