हार से कैसे सीखें

कृत्रिम बुद्धि

SA विक्टर VIC (CC BY-SA 2.0)
जोर से पढ़ें

{} 1l

डीपस्टैक और लाइब्रेटस दो एआई पोकर कार्यक्रम हैं जिन्होंने पिछले साल दिखाया था कि कृत्रिम बुद्धिमत्ता इतनी उन्नत हो गई है कि यह मानव विरोधियों से आगे है। नतीजतन, डेवलपर्स अब आर्टिफिशियल इंटेलिजेंस पर आधारित प्रशिक्षण कार्यक्रम शुरू कर रहे हैं।

आर्टिफिशियल इंटेलिजेंस लंबे समय से हमारे लिए बढ़ रहा है

खेल कार्यक्रमों का विकास शतरंज के साथ सालों पहले शुरू हुआ था। डीप ब्लू भी पहला कार्यक्रम था जिसने मानव विरोधियों को उच्च स्तर के खेल से हरा दिया - 1997 में तत्कालीन विश्व शतरंज चैंपियन कास्परोव के खिलाफ जीत से सफलतापूर्वक प्रलेखित।

तब से, अधिक से अधिक खेल कार्यक्रम लिखे गए हैं, जो अब ज्यादातर एआई पर आधारित हैं। उदाहरण के लिए, पिछले साल मार्क जुकरबर्ग ने घोषणा की कि उनकी एआई टीम उम्रदराज गेम गो के लिए सॉफ्टवेयर पर काम कर रही है। हालाँकि, Google तेज था, पहले से ही एक पेशेवर गो-खिलाड़ी, ली सेडोल को डीपमाइंड के साथ हराया।

क्यों पोकर प्रोग्रामिंग में AI कुछ नया है

शतरंज, गो, खतरे की तरह खेल के विपरीत! और कई अन्य कंप्यूटर गेम, पोकर, इस मामले में, नो-लिमिट टेक्सास होल्डम, एक अपूर्ण खेल है। प्रदर्शन

इसका मतलब यह है कि शतरंज और जाने जैसे खेल एक सूचना-पूर्णता है। दोनों खिलाड़ी, या गेम सॉफ्टवेयर, जानते हैं कि वास्तव में प्रतिद्वंद्वी किसके साथ काम कर सकता है - जो गेम एआई के सफल विकास को बहुत आसान बनाता है। पोकर में, यह मामला नहीं है, क्योंकि खिलाड़ियों को अपने विरोधियों के बेतरतीब ढंग से निपटाए गए कार्ड में कोई अंतर्दृष्टि नहीं है।

सफल पोकर एआई मानव व्यवहार की नकल करता है

दो खिलाड़ियों के बीच नो-लिमिट टेक्सास होल्डम के खेल में अलग-अलग खेल स्थितियों की एक अविश्वसनीय रूप से उच्च संख्या (सटीक होने के लिए 10, 160) शामिल है। कंप्यूटर के लिए स्वीकार्य समय में सभी की गणना करना बहुत अधिक है। उदाहरण के लिए, डीपस्टैक केवल '1014 खेल स्थितियों की गणना करता है जो एआई ने खेल के माध्यम से खुद के खिलाफ सिखाया है। यह रणनीति मानव खिलाड़ी की आंत की भावना के बराबर है, जो वजन का खेल परिदृश्य सबसे अधिक संभावना है।

डीप लर्निंग आर्टिफिशियल न्यूरल नेटवर्क बनाता है

संभावित गेम परिदृश्यों पर विचार करना विशेष रूप से महत्वपूर्ण है यदि गेम एआई को नई जानकारी के बिना प्रतिक्रिया करनी है, उदाहरण के लिए यदि उसे प्रतिद्वंद्वी के सामने निर्णय करना है। इसके लिए एआई ने विशेष रूप से तंत्रिका नेटवर्क बनाया है; एल्गोरिदम जिन्होंने खेल के लिए सफल व्यवहारों में खुद को प्रशिक्षित किया है। संक्षेप में, इस प्रकार की 'गहरी सीख' मस्तिष्क के कामकाज की नकल करती है। और मानव तंत्रिका नेटवर्क की तरह, एआई अधिक से अधिक खेलों के साथ बेहतर हो।

पोकर एआई कितना उन्नत है

फिर भी, डीपस्टैक या लाइब्रेटस जैसे कार्यक्रम पोकर में जटिल मानव व्यवहार की सफलतापूर्वक नकल करने से कुछ साल दूर हैं, भले ही वे मानव विरोधियों के खिलाफ जीत रहे हों। ये गायब व्यवहार अभी तक कृत्रिम तंत्रिका नेटवर्क से नहीं सीखे गए हैं। यह है, डेवलपर्स कहते हैं, केवल समय की बात है।

दूरगामी परिणाम

अब आप सोच सकते हैं कि यह सिर्फ पोकर का खेल है और शुरू में प्रशिक्षण सॉफ्टवेयर को छोड़कर, शायद इसके दूरगामी परिणाम होंगे। लेकिन यह धारणा गलत होगी। डेवलपर्स, अक्सर शिक्षाविदों और एआई प्रोग्रामर, मानव व्यवहार एआई के लिए एक विकास मंच के रूप में पोकर का उपयोग करते हैं। क्योंकि AI पोकर में काम करता है और लगातार सही निर्णय लेता है, तो बड़ी संख्या में अन्य संभावित उपयोग होते हैं। क्योंकि एक AI जो अधूरी जानकारी के साथ भी (सबसे) सही निर्णय लेता है वह AI डेवलपर्स के लिए अगला मील का पत्थर है। तब से, एआई सुरक्षा और बातचीत के मामलों में भी लागू होगा। यह राज्यों, अंतर्राष्ट्रीय कंपनियों, साथ ही निजी व्यक्तियों के लिए दिलचस्प है। क्योंकि आप तब सटीक AI भविष्यवाणियों का उपयोग करके निर्णय ले सकते थे; एक घर की अंतिम कीमत जानने से पहले कल्पना कीजिए कि कोई कंपनी और उसके शेयर की कीमतों को कैसे विकसित करेगा, या राष्ट्रीय सुरक्षा कैसे खतरे में पड़ सकती है। संभावित पूर्वानुमान तब एआई के लिए संभव सबसे पूर्ण जानकारी का एक सवाल है।

इस तरह की अंतर्दृष्टि से, हम शायद वर्षों दूर हैं, लेकिन हम पोकर एआई के साथ उनके करीब एक कदम आगे आए हैं।

(, 31.03.2017 -)