Data Science Consultant के रूप में असफलताओं से मैंने क्या सीखा¶
Originally published at Data Science Club at Imperial (ICDSS) on 9 November 2021.
Big Four फर्म में Data Science Consultant के रूप में काम करना चुनौतीपूर्ण और फायदेमंद दोनों है। मैं कई data science और business टीमों के साथ काम करता हूँ। वही tools बहुत अलग समस्याओं का समाधान करते हैं। यह मिश्रण मुझे यह स्पष्ट दृष्टिकोण देता है कि Data Science असली दुनिया में कैसे उपयोगी है, और कहाँ यह अक्सर संघर्ष करता है।
मैंने चार साल एक data scientist के रूप में बिताए हैं, मुख्य रूप से retail, supply chain और manufacturing में। मेरे पहले कुछ प्रोजेक्ट असफल रहे। उन्होंने मुझे बहुत कुछ सिखाया। तब से, मैंने अधिक स्थिरता से काम किया है। सबक से पहले, सफलता को परिभाषित करना मददगार होता है।
मेरे लिए, एक प्रोजेक्ट तब सफल माना जाता है जब यह एक deployed solution में समाप्त होता है, या एक proof of concept जिसमें client की टीम को थोड़ी परेशानी के साथ एकीकृत किया जा सके। Business users को इसे उपयोग करने के लिए पर्याप्त विश्वास होना चाहिए।
यह चुनौती सामान्य है। एक Gartner अध्ययन सुझाव देता है कि लगभग 85% data science प्रोजेक्ट कभी production तक नहीं पहुँचते.
प्रोजेक्ट शुरू करने से पहले मैं जो सवाल पूछता हूँ¶
जब मुझे एक नया प्रस्ताव मिलता है, तो मैं कुछ सरल सवाल पूछता हूँ।
- क्या यह एक data science समस्या है? कई समस्याओं के लिए मॉडल की आवश्यकता नहीं होती। कुछ आज के data या systems के लिए बहुत जटिल होते हैं। अन्य रिपोर्टिंग या प्रक्रिया सुधार से बेहतर हल होते हैं।
- क्या एक सरल दृष्टिकोण काम करेगा? अक्सर, एक dashboard, एक SQL query, या स्पष्ट नियमों का एक सेट सवाल का जवाब देता है। जहाँ मॉडल की आवश्यकता नहीं है, वहाँ उसका उपयोग करने से लागत और जोखिम बढ़ता है।
- लोग इसका उपयोग कैसे करेंगे? उपयोग और deployment महत्वपूर्ण हैं। API, batch job, app, या Excel output—हर विकल्प डिज़ाइन और प्रयास को बदलता है। प्रारंभिक स्पष्टता पुनः कार्य को रोकती है।
- क्या हमारे पास data है? गुणवत्ता, पूर्णता, पहुंच और lineage सभी महत्वपूर्ण हैं। भले ही अच्छा data मौजूद हो, बाहरी टीमों के साथ इसे साझा करना अनुपालन या भौगोलिक कारणों से कठिन हो सकता है।
- क्या हमारे पास सही data है? मैं CRISP–DM का पालन करता हूँ। मैं व्यवसाय से शुरू करता हूँ और उन विशेषताओं की सूची बनाता हूँ जो महत्वपूर्ण हैं, फिर चेक करता हूँ कि उनके लिए data मौजूद है या नहीं। यह प्रारंभिक रूप से गैप को उजागर करता है और feature engineering को आकार देता है।
- क्या हमारे पास सही tools हैं? Data science में optimization, regression, classification, clustering, forecasting और modern ML शामिल हैं। गलत विधि चुनने से delivery कठिन हो जाती है।
- क्या stakeholders का समर्थन है? अच्छे मॉडल तब विफल होते हैं जब उपयोगकर्ता उन पर विश्वास नहीं करते। जल्दी संलग्न करें, विकल्पों को समझाएँ और त्वरित जीत दिखाएँ।
- सफलता कैसी दिखती है? परिणामों पर संरेखित करें। कभी-कभी एक व्यवहार्य proof of concept पर्याप्त होता है; कभी-कभी केवल एक लाइव सिस्टम ही मायने रखता है।
- यह क्या परिवर्तन लाएगा? नए मॉडल कार्यप्रवाह को बदलते हैं। प्रशिक्षण, हैंडओवर और समर्थन की योजना बनाएं। बिना परिवर्तन प्रबंधन के, अपनाना रुक जाता है।
- क्या समस्या को परिभाषित किया गया है? अस्पष्ट लक्ष्य स्कोप क्रीप की ओर ले जाते हैं। शुरू करने से पहले एक स्पष्ट, मापनीय उद्देश्य निर्धारित करें।
- क्या समयसीमा वास्तविक है? Data cleaning, समीक्षाएँ और deployment में समय लगता है। जल्दी की गई समयसीमा गुणवत्ता को नुकसान पहुँचाती है।
- क्या एक feedback loop है? मॉडल drift होते हैं। पहले दिन से निगरानी, अलर्ट और पुनः प्रशिक्षण की योजना बनाएं।
- क्या अनुपालन प्रतिबंध हैं? कई क्षेत्रों में data उपयोग और रखरखाव पर सख्त नियम होते हैं। उन्हें जल्दी पहचानें।
- क्या बुनियादी ढाँचा तैयार है? सबसे अच्छे मॉडल भी सही compute, storage और access के बिना नहीं चलेंगे। वातावरण की योजना बनाएं।
- Fallback क्या है? यदि मॉडल अपेक्षाकृत अच्छा प्रदर्शन नहीं करता है, तो Plan B क्या है? एक सरल heuristic रोशनी बनाए रख सकती है।
- सफलता के मापदंड क्या हैं? Accuracy एकमात्र मापदंड नहीं है। KPIs को व्यवसाय मूल्य—लागत, समय या राजस्व से जोड़ें।
- हमें कितनी explainability की आवश्यकता है? कुछ संदर्भों में, black-box मॉडल नहीं चलेंगे। जहाँ आवश्यक हो, explainable विधियों या post-hoc tools का उपयोग करें।
- क्या टीमें संरेखित हैं? IT, business और operations को एक ही दिशा में खींचना चाहिए। असंरेखण विफलता का एक सामान्य कारण है।
ये सबक मुझे प्रोजेक्ट्स को अच्छी तरह से चुनने और उन्हें सफलता के लिए स्थापित करने में मदद करते हैं। ये सरल सवाल हैं, लेकिन उन्हें जल्दी पूछने से समय, लागत और goodwill की बचत होती है।