వాయిస్ ఏఐపై ఒక భిన్నమైన బెట్టు

Thinking Machines Lab, మాజీ OpenAI చీఫ్ టెక్నాలజీ ఆఫీసర్ మీరా మురాటి స్థాపించిన స్టార్టప్, తన మొదటి మోడల్‌కు చెందిన ఒక పరిశోధనా ప్రీవ్యూ‌ను విడుదల చేసింది మరియు దీనిని నేటి ప్రధాన వాయిస్ అసిస్టెంట్లు ఎలా పనిచేస్తున్నాయో దానికి ప్రత్యక్ష సవాలుగా ఫ్రేమ్ చేసింది. కంపెనీ వివరణ ప్రకారం, ఈ వ్యవస్థ ఆడియో, వీడియో, మరియు టెక్స్ట్‌ను సమాంతరంగా 200-మిల్లీసెకన్ల భాగాల్లో ప్రాసెస్ చేస్తుంది; దీని లక్ష్యం సంభాషణను ప్రశ్నలు-సమాధానాల క్రమంలా కాకుండా, మరింత ప్రవాహమయ మార్పిడిలా అనిపించేలా చేయడం.

ఆ డిజైన్ నిర్ణయం ముఖ్యమైనది, ఎందుకంటే చాలా రియల్-టైమ్ ఏఐ ఉత్పత్తులు ఇప్పటికీ దశలవారీ పైప్‌లైన్‌పై ఆధారపడుతున్నాయి. అభ్యర్థితో ఇచ్చిన వివరాల ప్రకారం, ప్రస్తుత వ్యవస్థలు నిరంతరం ఆడియోను స్వీకరిస్తాయి, కానీ ప్రధాన మోడల్ పూర్తి ప్రత్యక్ష పరస్పర చర్య ప్రవాహాన్ని నేరుగా అనుభవించదు. దానికి బదులుగా, బయట ఉన్న భాగాలు వక్త ఎప్పుడు ముగించాడో నిర్ణయించి, ఆ వాక్యాన్ని ప్యాకేజ్ చేసి, ఆపై మాత్రమే పూర్తిస్థాయి ప్రతిస్పందన కోసం మోడల్‌కు అందిస్తాయి. మోడల్ మాట్లాడుతున్నప్పుడు, దానిని అంతరాయం కల్పించకపోతే దాని గ్రహణం ప్రాయోగికంగా నిలిచిపోవచ్చు.

ఈ నిర్మాణం సహజంగానే ఒక పరిమితిని సృష్టిస్తుందని Thinking Machines Lab వాదిస్తోంది. ఒక వ్యవస్థ టర్న్ సరిహద్దుల కోసం వేచిచూడాల్సి వస్తే, ఎప్పుడు మాట్లాడాలో నిర్ణయించడానికి దిగువస్థాయి సహాయక సాధనాలపై ఆధారపడాల్సి వస్తే, సహజ సంభాషణలో ప్రజలు ఆశించే ప్రవర్తనలతో అది ఇబ్బంది పడుతుంది. అవసరమైనప్పుడు ముందస్తుగా మధ్యలో కలగజేసుకోవడం, తగిన చోట ఒకేసారి మాట్లాడటం, మరియు దృశ్య సందర్భానికి ప్రత్యక్ష ప్రతిస్పందనలు ఇందులో భాగమని కంపెనీ చెబుతోంది.

పాత నమూనా ఎందుకు సరిపోదని స్టార్టప్ భావిస్తోంది

కంపెనీ పిచ్ కేవలం వేగవంతమైన మోడల్‌ను నిర్మించామని చెప్పడం మాత్రమే కాదు. అది ఏఐలో ఉత్పత్తి రూపకల్పనపై మరింత విస్తృతమైన దావాను చేస్తోంది. దాని దృష్టిలో, ఇంటరాక్టివిటీని సాధారణ ప్రయోజనాల మోడల్ చుట్టూ చుట్టిన సన్నని పొరగా చూడకూడదు. అది మోడల్ యొక్క స్వాభావిక ప్రవర్తనలో భాగంగా ఉండాలి.

ఆ వాదన Thinking Machines Lab‌ను ఏఐ మార్కెట్‌లో ఒక గణనీయమైన వ్యూహాత్మక స్థానంలో ఉంచుతుంది. అనేక కంపెనీలు పెద్ద మోడళ్లను తర్కం, కోడింగ్, శోధనలలో మరింత సామర్థ్యవంతంగా చేయడంపై దృష్టి పెట్టి, తరువాత వాటిని ప్రసంగానికి అనుకూలం చేసేందుకు ఆర్కెస్ట్రేషన్ లేయర్లను జోడించాయి. Thinking Machines Lab ఈ పద్ధతి వ్యవస్థలను మెరుగ్గా వినిపించినా, అవి స్పష్టంగా యంత్రసమానంగానే మిగిలిపోతాయని చెబుతోంది.

అభ్యర్థి పాఠ్యం ప్రకారం, ఈ స్టార్టప్ తన విధానాన్ని OpenAI యొక్క GPT-Realtime-2 మరియు Google యొక్క Gemini Live వంటి ఉత్పత్తులతో పోలుస్తోంది. బాహ్య హార్నెస్‌ను ప్రత్యక్ష ఆడియో మరియు వీడియో స్ట్రీమ్‌లను నేరుగా ప్రాసెస్ చేసే మోడల్‌తో భర్తీ చేయడం ద్వారా, వ్యవస్థ ఇంటరాక్షన్ నాణ్యతను మరియు లేటెన్సీని రెండింటినీ మెరుగుపరచగలదని దాని వాదన. కంపెనీ తన విధానం వేగవంతమైన ఇంటరాక్షన్ మోడల్‌ను నేపథ్య తర్క మోడల్‌తో జత చేస్తుందని కూడా చెబుతోంది, ఇది తక్షణ సంభాషణ స్పందనను లోతైన గణన నుండి వేరుచేసే ఒక నిర్మాణాన్ని సూచిస్తుంది.

మోడల్ ఏం సాధించడానికి ఉద్దేశించబడింది

మూలంలో ఉన్న ప్రాయోగిక ఉదాహరణలు స్పష్టంగా ఉన్నాయి. మరింత సహజమైన ఇంటరాక్షన్ మోడల్, ఏదైనా తప్పుగా అనిపిస్తే మధ్యలో అడ్డుకోవాలని యూజర్ అసిస్టెంట్‌ను కోరే సంభాషణలను, లేదా యూజర్ స్క్రీన్‌పై లేదా కెమెరా దృష్టిలో ఏదైనా చేస్తుండగా ప్రతిస్పందించే సందర్భాలను మద్దతు ఇవ్వగలదు. ఇది ప్రసంగంలో ఓవర్లాప్‌ను కూడా మద్దతు ఇవ్వగలదు, ఇది లైవ్ అనువాదం వంటి సందర్భాల్లో ఉపయోగకరం అవుతుంది.

ఆ ఉదాహరణలు వాయిస్ ఇంటర్‌ఫేస్‌లు ఎలా అభివృద్ధి చెందవచ్చో అనే దానిలో ఒక లోతైన మార్పును సూచిస్తున్నాయి. సంవత్సరాలుగా, వాయిస్ వ్యవస్థలు వినియోగదారులను శుభ్రమైన, పరిమిత ఆదేశాలు ఇవ్వడానికి అలవాటు చేశాయి. తదుపరి దశ, అనిశ్చితి, అంతరాయం, సమయ నియంత్రణ, మరియు సమాంతర సంకేతాలను ఒక మానవ సహచరుడిలా నిర్వహించగల వ్యవస్థలపై ఆధారపడి ఉండవచ్చు. అది జరిగితే, వాయిస్ ఏఐలో పోటీ ఎవరికీ పెద్ద బేస్ మోడల్ ఉందన్నదానిపైనే కాదు, ఇంటరాక్షన్‌ను తక్కువ కృత్రిమంగా అనిపించేలా ఎవరు చేయగలరో అన్నదానిపైన ఉంటుంది.

అదే మార్కెట్ అవకాశం Thinking Machines Lab చేజిక్కించుకోవాలనుకుంటోంది. వాయిస్‌ను శక్తివంతమైన టెక్స్ట్ మోడల్‌కు జతచేసిన ఫీచర్‌గా చూపించకుండా, అది ఇంటరాక్షన్‌ను ప్రాథమిక సమస్యగా చూపిస్తోంది. ఇది ప్రాముఖ్యత కలిగినది, ఎందుకంటే ప్రస్తుత ఏఐ ఉత్పత్తి అభివృద్ధిలోని ప్రధాన అంచనాల్లో ఒకదాన్ని ఇది ప్రశ్నిస్తోంది: సాధారణ మేధస్సులోని పురోగతులు చివరికి ఇంటర్‌ఫేస్ నాణ్యతను సహజంగానే పరిష్కరిస్తాయని.

వాగ్దానం, ఒత్తిడి, మరియు తరువాత ఏమిటి

ఈ విడుదల ఇప్పటికీ ఒక పరిశోధనా ప్రీవ్యూ మాత్రమే, మరియు కంపెనీ యొక్క స్వంత పరిస్థితులు కూడా ముఖ్యమైనవే. అందించిన మూలం ప్రకారం, ఇటీవల అనేక ముఖ్య ఉద్యోగులు స్టార్టప్‌ను విడిచిపోయారు. అంటే ఈ సాంకేతిక ప్రదర్శన అమలు, సిబ్బంది, మరియు బలమైన పరిశోధనా స్థానాన్ని నిలకడైన ఉత్పత్తి మరియు వ్యాపారంగా మార్చగలదా అనే ప్రశ్నలతో కలిసి వస్తోంది.

అయినప్పటికీ, సమీపంగా గమనించబడే ఏఐ స్టార్టప్‌ల నుండి వచ్చే తొలి మోడల్ విడుదలలు, విస్తృత స్థాయిలో అమలులోకి రాకముందే రంగాన్ని ప్రభావితం చేయగలవు. Thinking Machines Lab లేటెన్సీ మరియు ఇంటరాక్షన్ నాణ్యతపై చేస్తున్న వాదనలు విస్తృత పరిశీలనలో నిలబడితే, ప్రత్యర్థులు ఇప్పటికే ఉన్న మోడళ్ల చుట్టూ మరిన్ని సాధనాలను జోడించటం కొనసాగించకుండా, వాయిస్ సిస్టమ్ డిజైన్‌ను ఆర్కిటెక్చర్ స్థాయిలోనే తిరిగి ఆలోచించాల్సి రావచ్చు.

ఇంకొక పెద్ద పరిశ్రమ ప్రభావం కూడా ఉంది. వాయిస్‌ను చాలా కాలంగా ఏఐ యొక్క అత్యంత సహజ ఇంటర్‌ఫేస్‌లలో ఒకటిగా భావిస్తున్నప్పటికీ, ప్రస్తుత అసిస్టెంట్లు ఆచరణలో అనేక వినియోగదారులకు ఇంకా కఠినంగానే అనిపిస్తున్నాయి. ఆడియో, వీడియో, మరియు టెక్స్ట్ అంతటా నిరంతరం గ్రహించి, మాట్లాడి, అనుకూలించగల వ్యవస్థ, ఆ వర్గాన్ని చాలా కాలంగా వాగ్దానం చేసిన అంబియంట్, సంభాషణాత్మక కంప్యూటింగ్ ఆలోచనకు మరింత దగ్గరగా తీసుకువెళ్తుంది.

ఇప్పటికి ప్రధాన takeaway మరింత సంకుచితమైనదే అయినా ముఖ్యమైనది: ఈ రంగంలో అత్యంత ఆసక్తిగా గమనించబడే కొత్త ప్రయోగశాలలలో ఒకటి తన మొదటి కదలికను చేసింది, మరియు అది ఇంటరాక్షన్ నాణ్యతపైనే పోటీ చేయాలని ఎంచుకుంది. మోడల్ విడుదలలతో నిండిన మార్కెట్‌లో, ఇది ఒక ప్రత్యేకమైన సిద్ధాంతం. అది నిలకడగా ఉంటుందా లేదా అనేది స్వతంత్ర ధృవీకరణ, ఉత్పత్తీకరణ, మరియు పరిశోధనా ప్రీవ్యూను మించి విడుదల చేయడానికి అవసరమైన బృందాన్ని నిలుపుకోవడంపై ఆధారపడి ఉంటుంది.

ఈ వ్యాసం The Decoder నివేదికల ఆధారంగా ఉంది. మూల వ్యాసాన్ని చదవండి.

Originally published on the-decoder.com