किसी सामग्री के साथ क्या जाता है, यह पूछने के दो तरीके
जब कोई पूछता है कि चिकन के साथ क्या अच्छा लगता है, तो कम-से-कम दो सही उत्तर होते हैं। एक पाक-संबंधी: कौन-सी सामग्रियाँ वास्तविक रेसिपियों में चिकन के साथ अक्सर आती हैं। दूसरा रासायनिक: कौन-सी सामग्रियाँ आणविक स्तर पर समान स्वाद प्रोफ़ाइल साझा करती हैं। Kaikaku.AI द्वारा उजागर नया शोध तर्क देता है कि कई AI सिस्टम इन दोनों उत्तरों को मिला देते हैं, और ऐसा करने से एक महत्वपूर्ण भेद छिप जाता है।
कंपनी का नया काम Epicure नाम के तहत तीन निकट-संबंधित मॉडल पेश करता है। एक मॉडल, Cooc, केवल रेसिपी सह-उपस्थिति पर प्रशिक्षित है। दूसरा, Chem, केवल FlavorDB रसायन डेटाबेस का उपयोग करके साझा फ्लेवर अणुओं पर प्रशिक्षित है। तीसरा, Core, दोनों दृष्टिकोणों का मिश्रण है।
यह भेद क्यों मायने रखता है
साधारण प्रॉम्प्ट में अंतर तुरंत दिखाई देता है। स्रोत पाठ के अनुसार, Cooc “chicken” के लिए garlic, onion और black pepper जैसी सामग्रियाँ सुझाता है, जो इस बात को दर्शाता है कि रसोइए आम तौर पर क्या साथ मिलाते हैं। इसके विपरीत Chem beef या pork जैसी सामग्रियाँ लौटाता है, जो जरूरी नहीं कि सबसे सामान्य रेसिपी साथी हों, लेकिन आणविक स्वाद प्रोफ़ाइल में अधिक निकट हों।
यही पैटर्न जड़ी-बूटियों के साथ भी दिखता है। “basil” के लिए Cooc parsley, olive oil और parmesan जैसे परिचित उपयोग-परिदृश्यों से जुड़ी सामग्रियाँ सुझाता है। Chem basil को oregano, tarragon और rosemary जैसे स्वाद-संबंधियों के साथ समूहित करता है। दूसरे शब्दों में, एक मॉडल कुकबुक जैसा व्यवहार करता है, दूसरा रसायन मानचित्र जैसा।
डेटा का पैमाना और बहुभाषी दायरा
Epicure को सात भाषाओं में, जिनमें चीनी, रूसी, वियतनामी, तुर्की, इंडोनेशियाई और जर्मन शामिल हैं, 11 स्रोतों से 4.14 मिलियन रेसिपियों पर प्रशिक्षित किया गया। यह बहुभाषी विस्तार परियोजना की प्रासंगिकता के दावे का एक बड़ा हिस्सा है। बहुत-से खाद्य डेटासेट अंग्रेज़ी-भाषी स्रोतों की ओर झुके होते हैं, जिससे क्षेत्रीय व्यंजन सपाट हो सकते हैं और पश्चिमी खाना पकाने के पैटर्न जरूरत से ज्यादा दिखाई दे सकते हैं।
स्रोत पाठ के अनुसार, पाइपलाइन ने Claude और Gemini के embeddings का उपयोग करके लगभग 200,000 कच्चे ingredient terms को 1,790 साफ़ किए गए ingredient labels में बदलने और सामान्यीकृत करने में मदद ली। ऐसा डेटा-तैयारी कार्य मॉडल डिज़ाइन जितना आकर्षक नहीं होता, लेकिन अक्सर यही वह चीज़ होती है जो किसी सिस्टम को वास्तविक संरचना पकड़ने या शोर बढ़ाने के बीच का अंतर बनाती है।
रसायन-प्रथम सीख से अप्रत्याशित प्रदर्शन
शोध के अधिक दिलचस्प दावों में से एक यह है कि रसायन-आधारित मॉडल उन गुणों पर भी अच्छा प्रदर्शन करता है जिन्हें प्रशिक्षण डेटा में सीधे शामिल नहीं किया गया था। स्रोत पाठ कहता है कि Chem sweet, sour या bitter जैसी विशेषताओं पर, और प्रोटीन व वसा जैसी पोषणात्मक धुरियों पर भी, अधिक स्पष्ट रूप से वर्गीकृत करता है।
यदि यह परिणाम टिकता है, तो यह संकेत देता है कि आणविक संबंध पाक ज्ञान के व्यापक क्षेत्र के लिए एक संक्षिप्त प्रतिनिधित्व के रूप में काम कर सकते हैं। केवल रसायन पर आधारित मॉडल फिर भी यह कुछ सीख सकता है कि मनुष्य सामग्रियों को कैसे देखते हैं, स्वाद को कैसे व्यवस्थित करते हैं, और पास-पड़ोस के गुणों का अनुमान कैसे लगाते हैं।
यह क्या बदल सकता है
फूड AI अब तक अनुशंसा, प्रतिस्थापन और सामग्री निर्माण पर केंद्रित रहा है। लेकिन ये प्रणालियाँ अक्सर बहुत अलग प्रश्नों को एक ही सामान्य समानता में मिला देती हैं। Epicure की रूपरेखा बताती है कि भविष्य के टूल्स को यह स्पष्ट करना होगा कि वे किस तरह की समानता को अनुकूलित कर रहे हैं।
उत्पाद डिज़ाइन में यह भेद मायने रख सकता है। एक रेसिपी सहायक को co-occurrence और cuisine context को प्राथमिकता देनी चाहिए। एक formulation या R&D tool को molecular similarity अधिक महत्वपूर्ण लग सकती है। नए व्यंजन बनाने वाले रचनात्मक सिस्टम को दोनों के बीच संतुलन चाहिए हो सकता है।
और भी महत्वपूर्ण यह है कि यह काम दिखाता है कि संकीर्ण लगने वाले डोमेन भी मॉडल डिज़ाइन की बड़ी समस्याएँ सामने ला सकते हैं। प्रशिक्षण डेटा सिर्फ तथ्य नहीं भरता। यह तय करता है कि सिस्टम दुनिया में किस तरह का संबंध मानता है।
एक अधिक सटीक food intelligence stack
इस परियोजना का व्यापक मूल्य वैचारिक स्पष्टता है। “इसके साथ क्या जाता है?” एक समस्या नहीं है। यह कई समस्याएँ हैं। रेसिपी व्यवहार को स्वाद रसायन से अलग करके Kaikaku.AI यह तर्क दे रहा है कि ingredient intelligence को औसत करने के बजाय विखंडित किया जाना चाहिए।
यह सुनने में विशिष्ट लग सकता है, लेकिन यह AI शोध के एक व्यापक पैटर्न से मेल खाता है। मॉडल तब अधिक उपयोगी बनते हैं जब वे एक ही डेटासेट में अलग-अलग संरचनाओं को अलग पहचानते हैं, बजाय उन्हें एक ही स्कोर में समेटने के। इस मामले में, नतीजा पाक ज्ञान को समझने का एक साफ़ तरीका है: आदतें, अणु, और वह स्थान जहाँ दोनों मिलते हैं।
यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.
Originally published on the-decoder.com

