Thinking Machines Lab రియల్-టైమ్ మల్టీమోడల్ వాయిస్ ఏఐ మోడల్‌ను ప్రారంభించింది

వాయిస్ ఏఐపై ఒక భిన్నమైన బెట్టు

Thinking Machines Lab, మాజీ OpenAI చీఫ్ టెక్నాలజీ ఆఫీసర్ మీరా మురాటి స్థాపించిన స్టార్టప్, తన మొదటి మోడల్‌కు చెందిన ఒక పరిశోధనా ప్రీవ్యూ‌ను విడుదల చేసింది మరియు దీనిని నేటి ప్రధాన వాయిస్ అసిస్టెంట్లు ఎలా పనిచేస్తున్నాయో దానికి ప్రత్యక్ష సవాలుగా ఫ్రేమ్ చేసింది. కంపెనీ వివరణ ప్రకారం, ఈ వ్యవస్థ ఆడియో, వీడియో, మరియు టెక్స్ట్‌ను సమాంతరంగా 200-మిల్లీసెకన్ల భాగాల్లో ప్రాసెస్ చేస్తుంది; దీని లక్ష్యం సంభాషణను ప్రశ్నలు-సమాధానాల క్రమంలా కాకుండా, మరింత ప్రవాహమయ మార్పిడిలా అనిపించేలా చేయడం.

ఆ డిజైన్ నిర్ణయం ముఖ్యమైనది, ఎందుకంటే చాలా రియల్-టైమ్ ఏఐ ఉత్పత్తులు ఇప్పటికీ దశలవారీ పైప్‌లైన్‌పై ఆధారపడుతున్నాయి. అభ్యర్థితో ఇచ్చిన వివరాల ప్రకారం, ప్రస్తుత వ్యవస్థలు నిరంతరం ఆడియోను స్వీకరిస్తాయి, కానీ ప్రధాన మోడల్ పూర్తి ప్రత్యక్ష పరస్పర చర్య ప్రవాహాన్ని నేరుగా అనుభవించదు. దానికి బదులుగా, బయట ఉన్న భాగాలు వక్త ఎప్పుడు ముగించాడో నిర్ణయించి, ఆ వాక్యాన్ని ప్యాకేజ్ చేసి, ఆపై మాత్రమే పూర్తిస్థాయి ప్రతిస్పందన కోసం మోడల్‌కు అందిస్తాయి. మోడల్ మాట్లాడుతున్నప్పుడు, దానిని అంతరాయం కల్పించకపోతే దాని గ్రహణం ప్రాయోగికంగా నిలిచిపోవచ్చు.

ఈ నిర్మాణం సహజంగానే ఒక పరిమితిని సృష్టిస్తుందని Thinking Machines Lab వాదిస్తోంది. ఒక వ్యవస్థ టర్న్ సరిహద్దుల కోసం వేచిచూడాల్సి వస్తే, ఎప్పుడు మాట్లాడాలో నిర్ణయించడానికి దిగువస్థాయి సహాయక సాధనాలపై ఆధారపడాల్సి వస్తే, సహజ సంభాషణలో ప్రజలు ఆశించే ప్రవర్తనలతో అది ఇబ్బంది పడుతుంది. అవసరమైనప్పుడు ముందస్తుగా మధ్యలో కలగజేసుకోవడం, తగిన చోట ఒకేసారి మాట్లాడటం, మరియు దృశ్య సందర్భానికి ప్రత్యక్ష ప్రతిస్పందనలు ఇందులో భాగమని కంపెనీ చెబుతోంది.

పాత నమూనా ఎందుకు సరిపోదని స్టార్టప్ భావిస్తోంది

కంపెనీ పిచ్ కేవలం వేగవంతమైన మోడల్‌ను నిర్మించామని చెప్పడం మాత్రమే కాదు. అది ఏఐలో ఉత్పత్తి రూపకల్పనపై మరింత విస్తృతమైన దావాను చేస్తోంది. దాని దృష్టిలో, ఇంటరాక్టివిటీని సాధారణ ప్రయోజనాల మోడల్ చుట్టూ చుట్టిన సన్నని పొరగా చూడకూడదు. అది మోడల్ యొక్క స్వాభావిక ప్రవర్తనలో భాగంగా ఉండాలి.

ఆ వాదన Thinking Machines Lab‌ను ఏఐ మార్కెట్‌లో ఒక గణనీయమైన వ్యూహాత్మక స్థానంలో ఉంచుతుంది. అనేక కంపెనీలు పెద్ద మోడళ్లను తర్కం, కోడింగ్, శోధనలలో మరింత సామర్థ్యవంతంగా చేయడంపై దృష్టి పెట్టి, తరువాత వాటిని ప్రసంగానికి అనుకూలం చేసేందుకు ఆర్కెస్ట్రేషన్ లేయర్లను జోడించాయి. Thinking Machines Lab ఈ పద్ధతి వ్యవస్థలను మెరుగ్గా వినిపించినా, అవి స్పష్టంగా యంత్రసమానంగానే మిగిలిపోతాయని చెబుతోంది.

అభ్యర్థి పాఠ్యం ప్రకారం, ఈ స్టార్టప్ తన విధానాన్ని OpenAI యొక్క GPT-Realtime-2 మరియు Google యొక్క Gemini Live వంటి ఉత్పత్తులతో పోలుస్తోంది. బాహ్య హార్నెస్‌ను ప్రత్యక్ష ఆడియో మరియు వీడియో స్ట్రీమ్‌లను నేరుగా ప్రాసెస్ చేసే మోడల్‌తో భర్తీ చేయడం ద్వారా, వ్యవస్థ ఇంటరాక్షన్ నాణ్యతను మరియు లేటెన్సీని రెండింటినీ మెరుగుపరచగలదని దాని వాదన. కంపెనీ తన విధానం వేగవంతమైన ఇంటరాక్షన్ మోడల్‌ను నేపథ్య తర్క మోడల్‌తో జత చేస్తుందని కూడా చెబుతోంది, ఇది తక్షణ సంభాషణ స్పందనను లోతైన గణన నుండి వేరుచేసే ఒక నిర్మాణాన్ని సూచిస్తుంది.

Create, edit and star in videos with two Google Vids updates

Google Vidsలో Gemini Omni మరియు వ్యక్తిగత అవతారాలు వచ్చాయి

Google Workspace‌లో AI వీడియో సృష్టిని విస్తరిస్తోంది. ఇందులో ప్రాంప్ట్ ఆధారిత క్లిప్ జనరేషన్, ఎడిటింగ్, అలాగే సెల్ఫీ మరియు వాయిస్ రికార్డింగ్‌తో తయారయ్యే కస్టమ్ అవతార్లు ఉన్నాయి.

Read article

మోడల్ ఏం సాధించడానికి ఉద్దేశించబడింది

మూలంలో ఉన్న ప్రాయోగిక ఉదాహరణలు స్పష్టంగా ఉన్నాయి. మరింత సహజమైన ఇంటరాక్షన్ మోడల్, ఏదైనా తప్పుగా అనిపిస్తే మధ్యలో అడ్డుకోవాలని యూజర్ అసిస్టెంట్‌ను కోరే సంభాషణలను, లేదా యూజర్ స్క్రీన్‌పై లేదా కెమెరా దృష్టిలో ఏదైనా చేస్తుండగా ప్రతిస్పందించే సందర్భాలను మద్దతు ఇవ్వగలదు. ఇది ప్రసంగంలో ఓవర్లాప్‌ను కూడా మద్దతు ఇవ్వగలదు, ఇది లైవ్ అనువాదం వంటి సందర్భాల్లో ఉపయోగకరం అవుతుంది.

ఆ ఉదాహరణలు వాయిస్ ఇంటర్‌ఫేస్‌లు ఎలా అభివృద్ధి చెందవచ్చో అనే దానిలో ఒక లోతైన మార్పును సూచిస్తున్నాయి. సంవత్సరాలుగా, వాయిస్ వ్యవస్థలు వినియోగదారులను శుభ్రమైన, పరిమిత ఆదేశాలు ఇవ్వడానికి అలవాటు చేశాయి. తదుపరి దశ, అనిశ్చితి, అంతరాయం, సమయ నియంత్రణ, మరియు సమాంతర సంకేతాలను ఒక మానవ సహచరుడిలా నిర్వహించగల వ్యవస్థలపై ఆధారపడి ఉండవచ్చు. అది జరిగితే, వాయిస్ ఏఐలో పోటీ ఎవరికీ పెద్ద బేస్ మోడల్ ఉందన్నదానిపైనే కాదు, ఇంటరాక్షన్‌ను తక్కువ కృత్రిమంగా అనిపించేలా ఎవరు చేయగలరో అన్నదానిపైన ఉంటుంది.

అదే మార్కెట్ అవకాశం Thinking Machines Lab చేజిక్కించుకోవాలనుకుంటోంది. వాయిస్‌ను శక్తివంతమైన టెక్స్ట్ మోడల్‌కు జతచేసిన ఫీచర్‌గా చూపించకుండా, అది ఇంటరాక్షన్‌ను ప్రాథమిక సమస్యగా చూపిస్తోంది. ఇది ప్రాముఖ్యత కలిగినది, ఎందుకంటే ప్రస్తుత ఏఐ ఉత్పత్తి అభివృద్ధిలోని ప్రధాన అంచనాల్లో ఒకదాన్ని ఇది ప్రశ్నిస్తోంది: సాధారణ మేధస్సులోని పురోగతులు చివరికి ఇంటర్‌ఫేస్ నాణ్యతను సహజంగానే పరిష్కరిస్తాయని.

వాగ్దానం, ఒత్తిడి, మరియు తరువాత ఏమిటి

ఈ విడుదల ఇప్పటికీ ఒక పరిశోధనా ప్రీవ్యూ మాత్రమే, మరియు కంపెనీ యొక్క స్వంత పరిస్థితులు కూడా ముఖ్యమైనవే. అందించిన మూలం ప్రకారం, ఇటీవల అనేక ముఖ్య ఉద్యోగులు స్టార్టప్‌ను విడిచిపోయారు. అంటే ఈ సాంకేతిక ప్రదర్శన అమలు, సిబ్బంది, మరియు బలమైన పరిశోధనా స్థానాన్ని నిలకడైన ఉత్పత్తి మరియు వ్యాపారంగా మార్చగలదా అనే ప్రశ్నలతో కలిసి వస్తోంది.

అయినప్పటికీ, సమీపంగా గమనించబడే ఏఐ స్టార్టప్‌ల నుండి వచ్చే తొలి మోడల్ విడుదలలు, విస్తృత స్థాయిలో అమలులోకి రాకముందే రంగాన్ని ప్రభావితం చేయగలవు. Thinking Machines Lab లేటెన్సీ మరియు ఇంటరాక్షన్ నాణ్యతపై చేస్తున్న వాదనలు విస్తృత పరిశీలనలో నిలబడితే, ప్రత్యర్థులు ఇప్పటికే ఉన్న మోడళ్ల చుట్టూ మరిన్ని సాధనాలను జోడించటం కొనసాగించకుండా, వాయిస్ సిస్టమ్ డిజైన్‌ను ఆర్కిటెక్చర్ స్థాయిలోనే తిరిగి ఆలోచించాల్సి రావచ్చు.

ఇంకొక పెద్ద పరిశ్రమ ప్రభావం కూడా ఉంది. వాయిస్‌ను చాలా కాలంగా ఏఐ యొక్క అత్యంత సహజ ఇంటర్‌ఫేస్‌లలో ఒకటిగా భావిస్తున్నప్పటికీ, ప్రస్తుత అసిస్టెంట్లు ఆచరణలో అనేక వినియోగదారులకు ఇంకా కఠినంగానే అనిపిస్తున్నాయి. ఆడియో, వీడియో, మరియు టెక్స్ట్ అంతటా నిరంతరం గ్రహించి, మాట్లాడి, అనుకూలించగల వ్యవస్థ, ఆ వర్గాన్ని చాలా కాలంగా వాగ్దానం చేసిన అంబియంట్, సంభాషణాత్మక కంప్యూటింగ్ ఆలోచనకు మరింత దగ్గరగా తీసుకువెళ్తుంది.

ఇప్పటికి ప్రధాన takeaway మరింత సంకుచితమైనదే అయినా ముఖ్యమైనది: ఈ రంగంలో అత్యంత ఆసక్తిగా గమనించబడే కొత్త ప్రయోగశాలలలో ఒకటి తన మొదటి కదలికను చేసింది, మరియు అది ఇంటరాక్షన్ నాణ్యతపైనే పోటీ చేయాలని ఎంచుకుంది. మోడల్ విడుదలలతో నిండిన మార్కెట్‌లో, ఇది ఒక ప్రత్యేకమైన సిద్ధాంతం. అది నిలకడగా ఉంటుందా లేదా అనేది స్వతంత్ర ధృవీకరణ, ఉత్పత్తీకరణ, మరియు పరిశోధనా ప్రీవ్యూను మించి విడుదల చేయడానికి అవసరమైన బృందాన్ని నిలుపుకోవడంపై ఆధారపడి ఉంటుంది.

ఈ వ్యాసం The Decoder నివేదికల ఆధారంగా ఉంది. మూల వ్యాసాన్ని చదవండి.

Originally published on the-decoder.com

Thinking Machines Lab సంభాషణ చుట్టూ నిర్మించిన రియల్-టైమ్ మల్టీమోడల్ మోడల్‌ను ఆవిష్కరించింది

వాయిస్ ఏఐపై ఒక భిన్నమైన బెట్టు

పాత నమూనా ఎందుకు సరిపోదని స్టార్టప్ భావిస్తోంది

Google Vidsలో Gemini Omni మరియు వ్యక్తిగత అవతారాలు వచ్చాయి

మోడల్ ఏం సాధించడానికి ఉద్దేశించబడింది

వాగ్దానం, ఒత్తిడి, మరియు తరువాత ఏమిటి

Comments (0)

Keep Reading