Anthropic Claude Opus 4.7 coding বাড়ায়, cyber সক্ষমতা সীমিত করে

Anthropic-এর নতুন flagship সরাসরি software কাজের জন্যই

Anthropic Claude Opus 4.6-এর সরাসরি upgrade হিসেবে Claude Opus 4.7 প্রকাশ করেছে, এবং এটিকে autonomous coding ও জটিল technical কাজের জন্য আরও সক্ষম system হিসেবে উপস্থাপন করছে। প্রদত্ত source material অনুযায়ী, সবচেয়ে বড় headline হলো SWE-bench Pro coding benchmark-এ উল্লেখযোগ্য উন্নতি, যেখানে Opus 4.7 পেয়েছে 64.3 percent, আর Opus 4.6 পেয়েছিল 53.4 percent।

report আরও বলছে, একই benchmark-এ modelটি OpenAI-এর GPT-5.4-এর 57.7 percent-এর চেয়ে এগিয়ে, যদিও Anthropic-এর নিজের Claude Mythos Preview-এর 77.8 percent-এর পেছনে আছে। এই framing গুরুত্বপূর্ণ। কোম্পানি Opus 4.7-কে তার সর্বোচ্চ experimental system হিসেবে নয়, বরং immediate predecessor-এর তুলনায় commercially গুরুত্বপূর্ণ ক্ষেত্র software engineering-এ উল্লেখযোগ্যভাবে উন্নত production-facing model হিসেবে দেখাচ্ছে।

Enterprise buyers এবং development teams-এর কাছে coding performance AI products-এর সবচেয়ে স্পষ্ট differentiator, কারণ এটি সরাসরি সময় সাশ্রয়, bug reduction, এবং well-scoped engineering work automation-এর সঙ্গে যুক্ত। Anthropic-এর ঘোষণা broad marketing reset-এর ওপর নয়, practical output quality উন্নত করার ওপর নির্ভর করে প্রতিযোগিতা করছে বলে ইঙ্গিত দেয়।

Instruction-following এবং vision, দুটোই এগিয়েছে

Anthropic বলছে, Opus 4.6-এর তুলনায় Opus 4.7 নির্দেশ আরও নির্ভুলভাবে অনুসরণ করে। শুনতে এটি incremental মনে হতে পারে, কিন্তু production-এ এর বাস্তব প্রভাব বড় হতে পারে। source-এ বলা হয়েছে, পুরোনো models-এর জন্য লেখা prompts এখন অপ্রত্যাশিত ফল দিতে পারে, কারণ নতুন system নির্দেশগুলোকে আরও literalভাবে ব্যাখ্যা করে, ঢিলেঢালা ভাবে সামলানোর বা অংশ বাদ দেওয়ার বদলে।

এই পরিবর্তনের দুই দিক আছে। ভালোভাবে লেখা prompts থাকলে better adherence model behavior-কে আরও নির্ভরযোগ্য করতে পারে, কিন্তু আগে অদেখা ছিল এমন দুর্বল prompt design-ও উন্মোচিত হতে পারে। বাস্তবে, Opus 4.7-এ upgrade করা teams-কে পুরোনো prompts, guardrails, এবং evaluation flows আবার দেখতে হতে পারে, drop-in parity ধরে নেওয়া উচিত নয়।

Vision-ও উল্লেখযোগ্যভাবে এগিয়েছে। প্রদত্ত লেখার মতে, model এখন long edge-এ 2,576 pixels পর্যন্ত images process করতে পারে, অর্থাৎ প্রায় 3.75 megapixels। Anthropic বলছে এটি আগের Claude models-এর ক্ষমতার তিন গুণেরও বেশি। dense screenshots পড়া computer-use agents এবং জটিল diagrams থেকে তথ্য নেওয়ার কাজের জন্য এটি বেশি কার্যকর হবে।

article-এ OfficeQA Pro document reasoning benchmark-এ 57.1 percent থেকে Opus 4.7-এ 80.6 percent বৃদ্ধির কথা বলা হয়েছে। biomolecular reasoning এবং ScreenSpot-Pro-এ visual navigation-এর উন্নতিও বর্ণনা করা হয়েছে। সব মিলিয়ে, এসব পরিবর্তন দেখায় Anthropic visual understanding-কে side feature নয়, বরং office, technical, এবং agentic workflows-এ model usefulness-এর core অংশ হিসেবে দেখছে।

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 2,000 ঘণ্টার রোবোটিক্স ডেটাসেট ওপেন-সোর্স করল

X Square Robot XRZero-G0 এবং 2,000 ঘণ্টার একটি মাল্টিমোডাল ডেটাসেট প্রকাশ করেছে, যার লক্ষ্য embodied AI সিস্টেমের জন্য বাস্তব-রোবট প্রশিক্ষণ ডেটার প্রয়োজনীয়তা কমানো।

Read article

Anthropic safety tradeoffs-কে স্পষ্টভাবে সামনে আনছে

এই release-এ capability gain-এর পাশাপাশি একটি deliberate restriction-ও রয়েছে। source বলছে, Anthropic training-এর সময় risky cybersecurity capabilities কমানোর চেষ্টা করেছে এবং এখন সংশ্লিষ্ট requests automatically block করে। ফলে Opus 4.7 শুধু overall আরও সক্ষম নয়, বরং কোম্পানি যেটিকে বিপজ্জনক মনে করে সেই ক্ষেত্রে ইচ্ছাকৃতভাবে কম সক্ষম।

এটি বাজারের জন্য গুরুত্বপূর্ণ সংকেত। অনেক frontier model announcement raw gains-কে আগে তুলে ধরে, policy language পরে আসে। এখানে Anthropic এই ধারণাটি সামনে আনছে যে উচ্চ-ক্ষমতাসম্পন্ন models-কে সব domain-এ সমানভাবে এগোতেই হবে এমন নয়। বার্তাটি হলো, শক্তিশালী coding assistance এবং শক্তিশালী vision থাকলেও unrestricted cyber behavior থাকা জরুরি নয়।

গ্রাহকরা এটিকে feature বা limitation হিসেবে দেখবেন কি না, তা use case-এর ওপর নির্ভর করবে। mainstream software development-এর জন্য কোম্পানির বাজি স্পষ্ট: coding quality দ্রুত বাড়লে cyber-related behavior-এর ক্ষেত্রে safe boundaries গ্রহণযোগ্য।

Pricing note benchmark gain-এর মতোই গুরুত্বপূর্ণ হতে পারে

report বলছে per-token pricing অপরিবর্তিত আছে, কিন্তু একটি গুরুত্বপূর্ণ caveat যোগ করে: নতুন tokenizer একই text-কে 35 percent পর্যন্ত বেশি tokens-এ map করতে পারে। অর্থাৎ published token price না বদলালেও request-এর effective cost বাড়তে পারে।

এই বিবরণ সহজেই চোখ এড়াতে পারে, কিন্তু buyers-দের জন্য উপেক্ষা করা কঠিন। AI models মূল্যায়নকারী প্রতিষ্ঠানগুলো এখন কেবল posted rate cards নয়, বাস্তব workload economics-ও দেখছে। যদি tokenization পরিবর্তন billable usage বাড়ায়, তাহলে নতুন model benchmarking accuracy, latency, এবং cost একসঙ্গে মেপেই করা উচিত।

অর্থাৎ, Claude Opus 4.7 সত্যিই উন্নত হতে পারে, কিন্তু কোনো নির্দিষ্ট কাজের জন্য এটি অবশ্যই সস্তা হবে এমন নয়। এতে release-এর গুরুত্ব কমে না, বরং আলোচনাকে headline performance থেকে operational value-র দিকে নিয়ে যায়।

Our new community investments in Virginia support local jobs and expand energy affordability.

গুগল ভার্জিনিয়ায় বিনিয়োগ করছে: ১.৫ কোটি ডলারের জ্বালানি তহবিল ও ২,৭৪১টি শিক্ষানবিশ সুযোগ

স্থানীয় চাকরি ও জ্বালানি সাশ্রয় বাড়াতে গুগল ভার্জিনিয়ায় ১.৫ কোটি ডলারের Energy Impact Fund এবং ২,৭৪১টি বৈদ্যুতিক শিক্ষানবিশ সুযোগে সমর্থন ঘোষণা করেছে.

Read article

গুরুতর ব্যবহারকারীদের জন্য product release

প্রদত্ত material অনুযায়ী, Claude Opus 4.7 একটি focused release: better autonomous coding, better image handling, prompts-এর প্রতি more literal compliance, এবং dangerous cyber behavior দমন করার স্পষ্ট প্রচেষ্টা। এটিকে vague intelligence leap হিসেবে উপস্থাপন করা হচ্ছে না। এটিকে আরও useful technical system হিসেবে উপস্থাপন করা হচ্ছে।

এই launch উল্লেখযোগ্য। AI market সাধারণ দাবির বাইরে গিয়ে sharper product distinctions-এর দিকে এগোচ্ছে। Anthropic-এর সর্বশেষ move দেখায়, ওই distinctions-এর একটি হতে পারে high-value capabilities উন্নত করা, আর কিছু capability ইচ্ছাকৃতভাবে সীমিত রাখা।

এই নিবন্ধটি The Decoder-এর প্রতিবেদনের ওপর ভিত্তি করে। মূল নিবন্ধটি পড়ুন.

Originally published on the-decoder.com

Anthropic Claude Opus 4.7-কে coding-এ আরও এগিয়ে নিয়েছে, তবে cyber ব্যবহার ইচ্ছাকৃতভাবে সীমিত করেছে