Databricks Enterprise Agent Workflows-இல் GPT-5.5-ஐ சேர்த்தது

Benchmark செயல்திறன் deployment-ஐ இயக்குகிறது

சிக்கலான enterprise document பணிகளுக்கான நிறுவனத்தின் benchmark ஆன OfficeQA Pro-வில் GPT-5.5 புதிய state of the art-ஐ ஏற்படுத்தியதால், அதை enterprise agent workflows-இல் கொண்டு வருவதாக Databricks கூறுகிறது. வழங்கப்பட்ட source text படி, agent-harness அமைப்பில் அந்த benchmark-இல் 50% accuracy-ஐ கடந்த முதல் model GPT-5.5 ஆகும், மேலும் GPT-5.4-ஐ விட errors-ஐ 46% குறைத்தது.

இந்த முடிவு முக்கியமானது, ஏனெனில் இது model adoption-ஐ enterprises கவலைப்படும் ஒரு பிரச்சினையுடன் நேரடியாக இணைக்கிறது: cascading failures இல்லாமல் கடினமான document workflows-ஐ கையாளுவது. OfficeQA Pro scanned PDFs, legacy files, மற்றும் long-context documents முழுவதும் parsing, retrieval, grounded reasoning ஆகியவற்றை மதிப்பிடுகிறது; இவை production agent systems-ஐ அடிக்கடி உடைக்கும் பணிகள் என்று Databricks விவரிக்கிறது.

இதனால் இந்த அறிவிப்பு ஒரு சாதாரண product integration-ஐ விட அதிகமாகிறது. கடினமான enterprise benchmark-இல் அளவிடக்கூடிய முன்னேற்றங்கள் இப்போது customer-facing workflows-க்கு விரிவான deployment-ஐ நியாயப்படுத்துவதற்கு போதுமான வலிமை கொண்டுள்ளன என்பதே இதன் கூற்று.

Document parsing இன்னும் பல agents-க்கு பலவீனமான இடம்

Databricks விளக்கத்தில் மிகவும் தெளிவாகத் தெரியும் themes-இல் ஒன்று parsing-heavy workflows-இல் காணப்பட்ட பெரிய முன்னேற்றம். source text கூறுவதாவது, enterprise content-இன் பெரும்பகுதி இன்னும் scanned அல்லது legacy formats-இல் உள்ளது, அங்கு சிறிய extraction பிழைகள் பின்னர் நடப்பதையெல்லாம் மாற்றிவிடலாம். ஒரு digit தவறாகப் படிக்கப்பட்டால், முழு workflow-யின் திசையே மாறலாம்.

Databricks researcher Arnav Singhvi, GPT-5.4 போன்ற முன்னைய models எல்லா digits-ஐயும் சரியாக parse செய்ய சிரமப்பட்டதாகவும், GPT-5.5 பழைய documents மற்றும் scanned PDFs-ஐ கையாள்வதில், அவர் சொன்னபடி, step-function lift-ஐ வழங்கும் போல இருப்பதாகவும் கூறினார். இது மிகவும் நடைமுறைசார்ந்த மேம்பாடு. enterprise automation-இல் ingestion layer-இல் accuracy, flashy generative capability-யை விட அதிக முக்கியத்துவம் கொண்டது; ஏனெனில் downstream reasoning என்பது முதலில் system எடுக்கும் text மற்றும் numbers எவ்வளவு சரியாக உள்ளன என்பதிலேயே சார்ந்திருக்கிறது.

source மேலும் கூறுவதாவது, multi-step tasks-இல் orchestration மேம்பட்டதாக Databricks கண்டது. GPT-5.4 சில சமயங்களில் தேவையற்ற search detours எடுத்ததாக Singhvi கூறினார், இதனால் inefficient trajectories உருவானன. GPT-5.5 relevant context-ஐ மீட்டெடுப்பதிலும், கூடுதல் supervision இல்லாமல் சிக்கலான workflows-ஐ முடிப்பதிலும் மேலும் நம்பகமானதாக விவரிக்கப்பட்டது.

How we used Gemini to build Google I/O 2026

Google, I/O 2026-ஐ உருவாக்க Gemini எவ்வாறு உதவியது என்பதை விவரிக்கிறது

Google, Google I/O 2026-க்கான திரைப்படங்கள், காட்சிகள், மற்றும் நிகழ்வு கூறுகளை உருவாக்க Gemini மற்றும் பிற AI கருவிகளை அணிகள் பயன்படுத்தினதாக கூறுகிறது; இந்த மாநாட்டை AI உதவியுடன் செய்யப்பட்ட உற்பத்தியின் உள்நாட்டு எடுத்துக்காட்டாக அது முன்வைக்கிறது.

Read article

Enterprise agents-க்கு இதன் அர்த்தம்

Enterprise agent systems பொதுவாக ஒரு பெரிய, நாடகத்தன்மை வாய்ந்த தவறால் தோல்வியடைவதில்லை. பெரும்பாலும் அவை சிறிய தவறுகளின் தொடர்ச்சியால் தோல்வியடைகின்றன: தவறான parse, விடுபட்ட table entry, பொருத்தமற்ற retrieval step, அல்லது பின்னர் எடுத்துச் செல்லப்படும் ஒரு grounded அல்லாத conclusion. OfficeQA Pro இத்தகைய பகுதிகளைத் துல்லியமாகச் சோதிக்க வடிவமைக்கப்பட்டுள்ளது.

அதனால்தான் வழங்கப்பட்ட text-இல் உள்ள benchmark எண்கள் முக்கியமானவை. 50% accuracy-ஐ கடந்தது ஒரு abstract leaderboard result போல காட்டப்படவில்லை. production-க்கு தொடர்பான கடின office document பணிகளுக்காக உருவாக்கப்பட்ட benchmark-இல் அடைந்த threshold ஆக இது விவரிக்கப்படுகிறது. அதேபோல் GPT-5.4-ஐ விட 46% error reduction என்பது வெறும் marginal tuning அல்ல, reliability மேம்பாட்டைக் காட்டுகிறது.

இங்கே கூறப்படுவது enterprise agents முழுமையாக தீர்ந்துவிட்டன என்பதல்ல. 50% accuracy-ஐ கடந்த benchmark கூட இன்னும் குறிப்பிடத்தக்க headroom இருப்பதைக் காட்டுகிறது. ஆனால் reported gains, enterprises அதிகம் கவலைப்படும் workflow பகுதிகளில் model quality முன்னேறிக் கொண்டிருக்கிறது என்பதை示: documents-ஐ machine-usable form-க்கு மாற்றுதல், சரியான context-ஐ கண்டறிதல், மற்றும் பல படிகளிலும் task-இல் நிலைத்திருத்தல்.

Databricks GPT-5.5-ஐ எப்படி பயன்படுத்த திட்டமிடுகிறது

வழங்கப்பட்ட source text படி, Databricks AI Unity Gateway மூலம் GPT-5.5-ஐ கிடைக்கச் செய்கிறது, அங்கு வாடிக்கையாளர்கள் அதை AgentBricks மற்றும் Agent Supervisor API-யுடன் உருவாக்கப்பட்ட workflows-இல் பயன்படுத்தலாம். இந்த systems-இல், GPT-5.5 parsing, retrieval, execution ஆகியவற்றை specialized agents முழுவதும் orchestrate செய்கிறது.

இந்த deployment model முக்கியமானது, ஏனெனில் இது model-ஐ வெறும் chatbot interface ஆக அல்ல, supervisory மற்றும் coordinating roles-இல் வைக்கிறது. emphasis workflows, document handling, மற்றும் components-களுக்கிடையேயான orchestration-இல் உள்ளது. இதுவே enterprise buyers இப்போது AI systems எப்படிச் செயல்பட வேண்டும் என்று விரும்புகின்றனர் என்பதுடன் பொருந்துகிறது: standalone text generators என்பதற்குப் பதிலாக managed, auditable process layers ஆக.

Singhvi கூறுவதாவது, இந்த workflows-ஐ supervise செய்ய GPT-5.5 இருப்பது உற்சாகமானது, ஏனெனில் Databricks பல customer-கள் custom agent systems-க்கு AgentBricks மற்றும் Agent Supervisor API-யைப் பயன்படுத்துவார்கள் என எதிர்பார்க்கிறது. இதன் implication, model-ஐ ஒரே முறை கேட்கப்படும் கேள்விகளுக்கான assistant ஆக அல்ல, மேலும் சிக்கலான organizational automation-க்கு control layer ஆக position செய்யப்படுகிறது என்பதாகும்.

OpenAI starts with infrastructure robots but aims for "everyone having a personal robot doing anything they need"

இன்ஃப்ராஸ்ட்ரக்சர் பணிகளையும் நீண்டகால நுகர்வோர் காட்சியையும் மையமாகக் கொண்டு OpenAI ரோபோட்டிக்ஸை மீண்டும் கட்டமைக்கிறது

OpenAI தனது ரோபோட்டிக்ஸ் அணியை மீண்டும் அமைத்துள்ளது; தொடக்கம் இன்ஃப்ராஸ்ட்ரக்சர் பணிகளுடன், CEO Sam Altman அனைவருக்கும் தனிப்பட்ட ரோபோட் என்ற நீண்டகால இலக்கை விவரிக்கிறார்.

Read article

Enterprises இப்போது எதை மதிக்கின்றன என்பதற்கான ஒரு குறிகை

Databricks அறிவிப்பு தற்போதைய enterprise AI market பற்றியும் ஒரு பரந்த செய்தியை வழங்குகிறது. value proposition creative novelty-யை மையமாகக் கொண்டதல்ல. அது document-heavy knowledge work-ஐ மையமாகக் கொண்டது; அங்கு parsing accuracy, retrieval discipline, grounded reasoning ஆகியவை automation பயன்படத் தகுதியானதா இல்லையா என்பதை தீர்மானிக்கின்றன.

இந்த கவனம் முக்கியமானது, ஏனெனில் enterprise தகவலின் பெரிய பகுதி இன்னும் சிரமமான formats-இல் உள்ளது: scanned files, நீண்ட PDFs, mixed-structure documents, மற்றும் modern AI systems உருவாகுவதற்கு முன் உருவாக்கப்பட்ட archives. அங்கு செயல்திறனை குறிப்பிடத்தக்க அளவில் மேம்படுத்தும் எந்த model-மும், முன்பு நம்பகமாக automate செய்ய மிகவும் fragile ஆக இருந்த workflows-ஐ திறக்க முடியும்.

அதனால் இந்த அறிவிப்பின் மிக வலுவான கூற்று நடைமுறைசார்ந்தது. Databricks GPT-5.5 பொதுவாக நல்லது என்று மட்டும் சொல்லவில்லை. enterprise work-இல் உண்மையான operational pain ஏற்படுத்தும் ஒரு பகுதியிலே model மேலும் சிறந்தது என்று சொல்கிறது.

Benchmark முடிவு என்ன காட்டுகிறது, என்ன காட்டவில்லை

வழங்கப்பட்ட source ஒரு company announcement என்பதால், claims-ஐ அந்த சூழலில் படிக்க வேண்டும். benchmark Databricks-ன் சொந்த OfficeQA Pro, மற்றும் தெரிவிக்கப்பட்ட முன்னேற்றங்கள் GPT-5.5-ஐ customer workflows-இல் அறிமுகப்படுத்தும் போது நிறுவனம் முன்னிறுத்தும் அம்சங்களாகும்.

இருப்பினும், தெரிவிக்கப்பட்ட விவரங்கள் அர்த்தமுள்ள முடிவுக்கு போதுமான அளவு தெளிவான அடிப்படையை வழங்குகின்றன. parsing-heavy, multi-step enterprise document tasks-இல் GPT-5.4-ஐ விட GPT-5.5 சிறப்பாக இருந்தது என்று Databricks கண்டறிந்தது, மேலும் இப்போது அந்த model-ஐ தனது workflow stack மூலம் வெளிப்படுத்துகிறது. காரணம் நேரடியாக உள்ளது: agent systems-ஐ அடிக்கடி உடைக்கும் data-வில் சிறந்த செயல்திறன்.

அதனால் இந்த அறிவிப்பு முக்கியமானதாகிறது. enterprise AI adoption இப்போது model-கள் business documents-இன் குழப்பமான யதார்த்தத்தை கையாள முடியுமா என்பதிலேயே அதிகம் சார்ந்திருக்கிறது; சுத்தமான benchmark prompts-ஐ மட்டும் அல்ல. GPT-5.5 அந்த environment-இல் ஒரு முக்கிய threshold-ஐ கடந்துவிட்டதாக Databricks நம்புகிறது. அந்த மதிப்பீடு production-இல் சரியாக இருந்தால், அதன் தாக்கம் headline model prestige-ஐ விட brittle document workflows-ஐ நம்பகமாக பெரிய அளவில் automatable ஆக்குவதில்தான் அதிகமாக இருக்கும்.

This article is based on reporting by OpenAI. Read the original article.

சமூக அறிவியலில் AI கோடிங்-ஏஜென்ட் பயன்பாடு கடுமையாக சமமற்றதாக இருப்பதாக ஆய்வு கூறுகிறது

Anthropic ஆய்வு, சமூக அறிவியலில் கோடிங்-ஏஜென்ட் பயன்பாட்டில் பாலினம், துறை, பணிநிலை மற்றும் பல்கலைக்கழக தரவரிசை அடிப்படையில் பெரிய வேறுபாடுகள் உள்ளன என்று கண்டறிந்தது.

Read article

Originally published on openai.com

Benchmark முன்னேற்றங்களுக்குப் பிறகு Databricks, GPT-5.5-ஐ enterprise agent workflows-இல் பயன்படுத்துகிறது

Benchmark செயல்திறன் deployment-ஐ இயக்குகிறது

Document parsing இன்னும் பல agents-க்கு பலவீனமான இடம்

Google, I/O 2026-ஐ உருவாக்க Gemini எவ்வாறு உதவியது என்பதை விவரிக்கிறது

Enterprise agents-க்கு இதன் அர்த்தம்

Databricks GPT-5.5-ஐ எப்படி பயன்படுத்த திட்டமிடுகிறது

Enterprises இப்போது எதை மதிக்கின்றன என்பதற்கான ஒரு குறிகை

Benchmark முடிவு என்ன காட்டுகிறது, என்ன காட்டவில்லை

சமூக அறிவியலில் AI கோடிங்-ஏஜென்ட் பயன்பாடு கடுமையாக சமமற்றதாக இருப்பதாக ஆய்வு கூறுகிறது

Comments (0)

Related Articles

வேட்பாளர்களை சோதிக்க Anthropic நேர்முகத் தேர்வுகளில் AI கருவிகளைத் தடை செய்கிறது

Keep Reading