Reinforcement learning in Hindi रीइन्फोर्स्मेंट लर्निंग क्या है।

आज के इस पोस्ट में हम जानेंगे रीइंफोर्स्मेंट लर्निंग क्या है, (Reinforcement learning in Hindi) और यह कैसे कार्य करता है।

Reinforcement learning मशीन लर्निंग की ही एक तकनीक है, जिसमे Actions को बार-बार दोहराकर और reward देकर एक सॉफ्टवेयर एजेंट को इस प्रकार trained किया जाता है, की वह environment के अनुसार सही action लेने में सक्षम हो सके।

दूसरे शब्दो में कहें तो यह एक feedback आधारित मशीन लर्निंग तकनीक है, जिसमे एक सॉफ्टवेयर एजेंट environment में विभिन्न actions को perform कर और उनका परिणाम देखकर उस environment के अनुसार उचित व्यवहार करना या action लेना सीखता है।

क्योंकि यह एक feedback आधारित लर्निंग तकनीक है, तो इसमें माहौल अनुसार सही व्यवहार करने पर एजेंट को reward की प्राप्ति होती है, जो की एजेंट के लिए एक अच्छा feedback होता है, और गलत करने पर penelty भी दी जाती है, जिससे समय के साथ एजेंट सही action लेना सीख जाता है। Reinforcement learning में सॉफ्टवेयर एजेंट बिना किसी इंसानी हस्तक्षेप के अपने खुद के अनुभव और feedback के आधार पर व्यवहार करना सीखता है।

उदाहरण

Reinforcement learning का एक सामान्य सा उदाहरण आप Pubg विडिओ गेम से भी ले सकते हैं। Pubg game को बार-बार खेलने पर आपके खेलने की तकनीक बेहतर होती चली जाती है, आपको reward के रूप में अच्छा प्रदर्शन करने पर point भी मिलते हैं, आपका level up होता है, लेकिन यदि आप जल्दी out हो जाते हैं, तो आप उन सभी points को खो देते हैं।

मान लीजिये आप अभी-अभी pubg गेम खेलना सीख रहें हैं, तो उसमे आप शुरू में ही अच्छा प्रदर्शन नहीं कर पाते हैं, बल्कि उस game को कई बार खेलने और आउट हो जाने के एक समय बाद आप उसमे अच्छा अनुभव प्राप्त कर लेते हैं, जिससे आपका प्रदर्शन भी बेहतर होता चला जाता है। तो यहाँ पर आप ठीक एक reinforcement learning agent की तरह ही कार्य कर रहें होते हैं।

Types of Reinforcement learning in Hindi in Hindi

रीइंफोर्स्मेंट लर्निंग के मुख्य रूप से दो प्रकार हैं।

Positive reinforcement:- पॉजिटिव रीइंफोर्स्मेंट द्वारा किसी व्यवहार को बढ़ावा मिलता है। इसमें अपेक्षा अनुसार व्यवहार किये जाने पर रिवॉर्ड के रूप में कुछ add किया जाता है, ताकि उस व्यवहार को बढ़ावा दिया जा सके।

उदाहरण :- जिस प्रकार पालतू dog के द्वारा आपकी अपेक्षा अनुसार व्यवहार करने पर आप उसे रिवॉर्ड के रूप में खाने को बिस्कुट देते हैं, जिससे रिवॉर्ड प्राप्ति के लिए dog उस व्यवहार को दोहराता है।

Negative reinforcement:- नेगेटिव रीइंफोर्स्मेंट में व्यवहार को बढ़ावा देने के लिए या अपेक्षित व्यवहार को बनाए रखने के लिए नेगेटिव condition को रोका या avoid किया जाता है।

उदाहरण :- इसका उदाहरण आप Car की सीट बेल्ट से भी ले सकते हैं, जहाँ पर कार चलाने से पहले यदि आप सीट बेल्ट लगाना भूल जाते हैं, तो एक तेज अलार्म आपको सुनाई देता है, और जैसे ही आप सीट बेल्ट पहन लेते हैं, तो वह अलार्म खुद ब खुद बंद हो जाता है। इसमे आपके व्यवहार को बनाए रखने या सुधारने के लिए नेगेटिव condition को रोका जाता है।

रीइंफोर्स्मेंट लर्निंग के महत्वपूर्ण शब्द।

Agent:- यह एक AI algorithm है, जो reward और penalty के आधार पर Environment में व्यवहार करना सीखता है।

Environment:- यह एक task या scenario है, जिसका सामना एजेंट को करना पड़ता है, ताकि उस टास्क को पूरा किया जा सके।

Reward:- यह अपेक्षा अनुसार व्यवहार किए जाने पर एजेंट को दिया जाने वाला पुरुष्कार है, ताकि उस टास्क के प्रति एजेंट का वही व्यवहार बना रहे।

न्यूरल नेटवर्क क्या है।

डीप लर्निंग क्या है।

उदाहरण

Types of Reinforcement learning in Hindi in Hindi

Leave a Reply Cancel reply