अपेक्षा-अधिकतमकरण एल्गोरिथम

From alpha
Jump to navigation Jump to search

आँकड़ों में, एक अपेक्षा-अधिकतमकरण (ईएम) एल्गोरिथ्म सांख्यिकीय मॉडल में मापदंडों के अधिकतम (स्थानीय) अधिकतम संभावना या अधिकतम पश्च (एमएपी) अनुमानों को खोजने के लिए एक पुनरावृत्त विधि है, जहां मॉडल अव्यक्त अव्यक्त चर पर निर्भर करता है।[1] EM पुनरावृति एक अपेक्षा (E) चरण के प्रदर्शन के बीच वैकल्पिक होती है, जो संभावना फ़ंक्शन#लॉग-संभावना|लॉग-संभावना की अपेक्षा के लिए पैरामीटर के लिए वर्तमान अनुमान का उपयोग करके मूल्यांकन के लिए एक फ़ंक्शन बनाता है, और एक अधिकतमकरण (M) चरण, जो ई चरण पर अपेक्षित लॉग-संभावना को अधिकतम करने वाले पैरामीटर की गणना करता है। इन पैरामीटर-अनुमानों का उपयोग अगले ई चरण में अव्यक्त चर के वितरण को निर्धारित करने के लिए किया जाता है।

पुराने वफादार विस्फोट डेटा की ईएम क्लस्टरिंग। यादृच्छिक प्रारंभिक मॉडल (जो, कुल्हाड़ियों के विभिन्न पैमानों के कारण, दो बहुत ही सपाट और चौड़े दीर्घवृत्त प्रतीत होते हैं) प्रेक्षित डेटा के लिए उपयुक्त है। पहले पुनरावृत्तियों में, मॉडल काफी हद तक बदल जाता है, लेकिन फिर गरम पानी का झरना के दो तरीकों में परिवर्तित हो जाता है। ELKI का उपयोग करके विज़ुअलाइज़ किया गया।

इतिहास

आर्थर पी. डेम्पस्टर, लैयर्ड में और डोनाल्ड रुबिन द्वारा 1977 के एक क्लासिक पेपर में EM एल्गोरिद्म की व्याख्या की गई और इसका नाम दिया गया।[2] उन्होंने बताया कि इस पद्धति को पहले के लेखकों द्वारा विशेष परिस्थितियों में कई बार प्रस्तावित किया गया था। सेड्रिक स्मिथ (सांख्यिकीविद्) द्वारा एलील आवृत्तियों का अनुमान लगाने के लिए जल्द से जल्द एक जीन-गिनती विधि है।[3] एक अन्य हरमन ओटो हार्टले द्वारा प्रस्तावित किया गया था | एच.ओ. 1958 में हार्टले, और 1977 में हार्टले और हॉकिंग, जिससे डेम्पस्टर-लेयर्ड-रूबिन पेपर में कई विचार उत्पन्न हुए।[4] 1977 में एस.के. एनजी, थ्रियंबकम कृष्णन और जी.जे मैक्लाक्लन द्वारा एक और।[5] हार्टले के विचारों को किसी भी समूहीकृत असतत वितरण में विस्तृत किया जा सकता है। एक्सपोनेंशियल परिवारों के लिए ईएम पद्धति का एक बहुत विस्तृत उपचार रॉल्फ सुंदरबर्ग द्वारा उनकी थीसिस और कई पत्रों में प्रकाशित किया गया था,[6][7][8] प्रति मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के साथ उनके सहयोग के बाद।[9][10]Cite error: Closing </ref> missing for <ref> tag[11] 1977 में डेम्पस्टर-लेयर्ड-रुबिन पेपर ने इस पद्धति को सामान्यीकृत किया और समस्याओं के व्यापक वर्ग के लिए एक अभिसरण विश्लेषण तैयार किया। डेम्पस्टर-लेयर्ड-रुबिन पेपर ने सांख्यिकीय विश्लेषण के एक महत्वपूर्ण उपकरण के रूप में ईएम पद्धति की स्थापना की। मेंग और वैन डाइक (1997) को भी देखें।

डेम्पस्टर-लेयर्ड-रुबिन एल्गोरिथम का अभिसरण विश्लेषण त्रुटिपूर्ण था और 1983 में सीएफ जेफ वू द्वारा एक सही अभिसरण विश्लेषण प्रकाशित किया गया था। रेफरी नाम = वू> Wu, C. F. Jeff (Mar 1983). "ईएम एल्गोरिथम के अभिसरण गुणों पर". Annals of Statistics. 11 (1): 95–103. doi:10.1214/aos/1176346060. JSTOR 2240463. MR 0684867.</ref> वू के प्रमाण ने EM पद्धति के अभिसरण को घातीय परिवार के बाहर भी स्थापित किया, जैसा कि डेम्पस्टर-लेयर्ड-रूबिन ने दावा किया था।[12]


परिचय

ईएम एल्गोरिथ्म का उपयोग उन मामलों में एक सांख्यिकीय मॉडल के अधिकतम संभावना मापदंडों को खोजने के लिए किया जाता है जहां समीकरणों को सीधे हल नहीं किया जा सकता है। आम तौर पर इन मॉडलों में अज्ञात पैरामीटर और ज्ञात डेटा अवलोकनों के अतिरिक्त गुप्त चर शामिल होते हैं। यही है, डेटा के बीच या तो अनुपलब्ध मान मौजूद हैं, या मॉडल को और अधिक अप्रमाणित डेटा बिंदुओं के अस्तित्व को मानकर अधिक सरलता से तैयार किया जा सकता है। उदाहरण के लिए, एक मिश्रण मॉडल को यह मानकर अधिक सरलता से वर्णित किया जा सकता है कि प्रत्येक अवलोकन किए गए डेटा बिंदु में एक समान अप्रमाणित डेटा बिंदु या अव्यक्त चर होता है, जो मिश्रण घटक को निर्दिष्ट करता है जिससे प्रत्येक डेटा बिंदु संबंधित होता है।

अधिकतम संभावना समाधान खोजने के लिए आम तौर पर सभी अज्ञात मूल्यों, मापदंडों और अव्यक्त चर के संबंध में संभावना समारोह के यौगिक लेने और परिणामी समीकरणों को एक साथ हल करने की आवश्यकता होती है। अव्यक्त चर वाले सांख्यिकीय मॉडल में, यह आमतौर पर असंभव होता है। इसके बजाय, परिणाम आम तौर पर इंटरलॉकिंग समीकरणों का एक सेट होता है जिसमें मापदंडों के समाधान के लिए अव्यक्त चर के मूल्यों की आवश्यकता होती है और इसके विपरीत, लेकिन समीकरणों के एक सेट को दूसरे में प्रतिस्थापित करने से एक अघुलनशील समीकरण उत्पन्न होता है।

EM एल्गोरिथ्म अवलोकन से आगे बढ़ता है कि समीकरणों के इन दो सेटों को संख्यात्मक रूप से हल करने का एक तरीका है। कोई भी अज्ञात के दो सेटों में से किसी एक के लिए मनमाना मान चुन सकता है, दूसरे सेट का अनुमान लगाने के लिए उनका उपयोग करें, फिर पहले सेट का बेहतर अनुमान लगाने के लिए इन नए मानों का उपयोग करें, और फिर दोनों के बीच तब तक बारी-बारी से जारी रखें जब तक परिणामी मान दोनों निश्चित बिंदुओं पर अभिसरण। यह स्पष्ट नहीं है कि यह काम करेगा, लेकिन इस संदर्भ में इसे सिद्ध किया जा सकता है। इसके अतिरिक्त, यह सिद्ध किया जा सकता है कि उस बिंदु पर संभावना का व्युत्पन्न (मनमाने ढंग से करीब) शून्य है, जिसका अर्थ है कि बिंदु या तो एक स्थानीय अधिकतम या एक काठी बिंदु है।[12]सामान्य तौर पर, एकाधिक अधिकतमता हो सकती है, इस बात की कोई गारंटी नहीं है कि वैश्विक अधिकतम मिल जाएगा। कुछ सम्भावनाओं में गणितीय विलक्षणता भी होती है, अर्थात निरर्थक मैक्सिमा। उदाहरण के लिए, मिश्रण मॉडल में ईएम द्वारा पाए जाने वाले समाधानों में से एक घटक को शून्य विचरण के लिए सेट करना और उसी घटक के लिए माध्य पैरामीटर डेटा बिंदुओं में से एक के बराबर होना शामिल है।

विवरण

प्रतीक

एक सेट उत्पन्न करने वाले सांख्यिकीय मॉडल को देखते हुए देखे गए डेटा का, बिना देखे गए अव्यक्त डेटा या लापता मानों का एक सेट , और अज्ञात मापदंडों का एक वेक्टर , एक संभावना समारोह के साथ , अज्ञात मापदंडों का अधिकतम संभावना अनुमान (MLE) प्रेक्षित डेटा की सीमांत संभावना को अधिकतम करके निर्धारित किया जाता है

हालाँकि, यह मात्रा अक्सर अट्रैक्टिव होती है अप्राप्य है और का वितरण प्राप्त करने से पहले अज्ञात है .

ईएम एल्गोरिथ्म

EM एल्गोरिथम इन दो चरणों को पुनरावृत्त रूप से लागू करके सीमांत संभावना के MLE को खोजने का प्रयास करता है:

अपेक्षा चरण (ई चरण): परिभाषित करें के लॉग संभावना फ़ंक्शन के अपेक्षित मान के रूप में , के वर्तमान सशर्त संभाव्यता वितरण के संबंध में दिया गया और मापदंडों के वर्तमान अनुमान :
अधिकतम चरण (M चरण): इस मात्रा को अधिकतम करने वाले पैरामीटर खोजें:

अधिक संक्षेप में, हम इसे एक समीकरण के रूप में लिख सकते हैं:


चर की व्याख्या

विशिष्ट मॉडल जिन पर EM लागू किया जाता है, उनका उपयोग किया जाता है समूहों के एक समूह में सदस्यता का संकेत देने वाले एक अव्यक्त चर के रूप में:

  1. देखे गए डेटा बिंदु [[असतत यादृच्छिक चर]] हो सकता है (एक परिमित या गणनीय अनंत सेट में मान लेना) या निरंतर यादृच्छिक चर (एक बेशुमार अनंत सेट में मान लेना)। प्रत्येक डेटा बिंदु के साथ संबद्ध प्रेक्षणों का सदिश हो सकता है।
  2. लापता मान (उर्फ अव्यक्त चर) असतत यादृच्छिक चर हैं, मानों की एक निश्चित संख्या से तैयार किए गए हैं, और प्रति देखी गई इकाई में एक अव्यक्त चर के साथ।
  3. पैरामीटर निरंतर होते हैं, और दो प्रकार के होते हैं: पैरामीटर जो सभी डेटा बिंदुओं से जुड़े होते हैं, और जो एक अव्यक्त चर के विशिष्ट मान से जुड़े होते हैं (यानी, सभी डेटा बिंदुओं से जुड़े होते हैं जिनके संगत अव्यक्त चर में वह मान होता है)।

हालांकि, ईएम को अन्य प्रकार के मॉडलों पर लागू करना संभव है।

प्रेरणा इस प्रकार है। यदि मापदंडों का मान ज्ञात है, आमतौर पर अव्यक्त चर का मान के सभी संभावित मूल्यों पर लॉग-लाइबिलिटी को अधिकतम करके पाया जा सकता है , या तो केवल पुनरावृति करके या छिपे छिपा हुआ मार्कोव मॉडल के लिए विटरबी एल्गोरिथ्म जैसे एल्गोरिदम के माध्यम से। इसके विपरीत, यदि हम अव्यक्त चरों का मान जानते हैं , हम मापदंडों का अनुमान पा सकते हैं काफी आसानी से, आम तौर पर संबंधित अव्यक्त चर के मूल्य के अनुसार देखे गए डेटा बिंदुओं को समूहीकृत करके और प्रत्येक समूह में बिंदुओं के मूल्यों, या मानों के कुछ फ़ंक्शन का औसत। यह एक पुनरावृत्त एल्गोरिथ्म का सुझाव देता है, उस स्थिति में जहां दोनों और अज्ञात हैं:

  1. सबसे पहले, मापदंडों को इनिशियलाइज़ करें कुछ यादृच्छिक मूल्यों के लिए।
  2. प्रत्येक संभावित मान की प्रायिकता की गणना करें , दिया गया .
  3. फिर, के अभी-अभी परिकलित मानों का उपयोग करें मापदंडों के लिए एक बेहतर अनुमान की गणना करने के लिए .
  4. अभिसरण तक चरण 2 और 3 को दोहराएँ।

एल्गोरिथम जैसा कि अभी वर्णित किया गया है, नीरस रूप से स्थानीय न्यूनतम लागत फ़ंक्शन तक पहुंचता है।

गुण

हालांकि एक ईएम पुनरावृत्ति देखे गए डेटा (यानी, सीमांत) संभावना समारोह में वृद्धि करता है, कोई गारंटी मौजूद नहीं है कि अनुक्रम अधिकतम संभावना अनुमानक में अभिसरण करता है। बिमोडल वितरण के लिए, इसका मतलब यह है कि एक ईएम एल्गोरिदम शुरुआती मूल्यों के आधार पर देखे गए डेटा संभावना फ़ंक्शन के स्थानीय अधिकतम में अभिसरण कर सकता है। एक स्थानीय अधिकतम से बचने के लिए विभिन्न प्रकार के अनुमानी या मेटाह्यूरिस्टिक दृष्टिकोण मौजूद हैं, जैसे यादृच्छिक-पुनरारंभ पहाड़ी चढ़ाई (कई अलग-अलग यादृच्छिक प्रारंभिक अनुमानों से शुरू करना) ), या तैयार किए हुयी धातु पे पानी चढाने की कला विधियों को लागू करना।

EM विशेष रूप से उपयोगी होता है जब संभावना एक घातीय परिवार है, एक व्यापक उपचार के लिए Sundberg (2019, Ch. 8) देखें:[13] ई चरण पर्याप्त आँकड़ों की अपेक्षाओं का योग बन जाता है, और एम चरण में एक रैखिक कार्य को अधिकतम करना शामिल होता है। ऐसे मामले में, आमतौर पर सुंदरबर्ग सूत्र का उपयोग करके प्रत्येक चरण के लिए बंद-रूप अभिव्यक्ति अपडेट प्राप्त करना संभव होता है[14] (प्रति मार्टिन-लोफ और एंडर्स मार्टिन-लोफ के अप्रकाशित परिणामों के आधार पर रॉल्फ सुंदरबर्ग द्वारा सिद्ध और प्रकाशित)।[7][8][10][15][16][11]

डेम्पस्टर, लैयर्ड और रुबिन द्वारा मूल पेपर में बायेसियन अनुमान के लिए अधिकतम पश्च (एमएपी) अनुमानों की गणना करने के लिए ईएम पद्धति को संशोधित किया गया था।

अधिकतम संभावना अनुमानों को खोजने के लिए अन्य तरीके मौजूद हैं, जैसे ढतला हुआ वंश , संयुग्मी ढाल या गॉस-न्यूटन एल्गोरिथम के वेरिएंट। ईएम के विपरीत, इस तरह के तरीकों में आम तौर पर संभावना समारोह के पहले और/या दूसरे डेरिवेटिव के मूल्यांकन की आवश्यकता होती है।

शुद्धता का प्रमाण

अपेक्षा-अधिकतमकरण सुधार के लिए काम करता है सीधे सुधार करने के बजाय . यहाँ यह दिखाया गया है कि पूर्व में सुधार बाद वाले में सुधार करता है।[17] किसी के लिए गैर-शून्य संभावना के साथ , हम लिख सकते हैं

हम अज्ञात डेटा के संभावित मूल्यों पर अपेक्षा करते हैं वर्तमान पैरामीटर अनुमान के तहत दोनों पक्षों को से गुणा करके और योग (या एकीकृत) खत्म . बाईं ओर एक स्थिरांक की अपेक्षा है, इसलिए हमें मिलता है:

कहाँ इसे प्रतिस्थापित किए जा रहे नकारात्मक योग द्वारा परिभाषित किया गया है। यह अंतिम समीकरण के प्रत्येक मान के लिए मान्य है शामिल ,

और इस अंतिम समीकरण को पिछले समीकरण से घटाकर देता है

हालाँकि, गिब्स की असमानता हमें बताती है , तो हम यह निष्कर्ष निकाल सकते हैं

शब्दों में, चुनना सुधार करने के लिए कारण कम से कम इतना सुधार करने के लिए।

एक अधिकतमकरण-अधिकतमकरण प्रक्रिया के रूप में

ईएम एल्गोरिदम को दो वैकल्पिक अधिकतमकरण चरणों के रूप में देखा जा सकता है, जो समन्वय वंश के उदाहरण के रूप में है।[18][19] समारोह पर विचार करें:

जहाँ q बिना देखे गए डेटा z पर एक मनमाना संभाव्यता वितरण है और H(q) वितरण q का एंट्रॉपी (सूचना सिद्धांत) है। इस समारोह के रूप में लिखा जा सकता है

कहाँ देखे गए डेटा को देखते हुए बिना देखे गए डेटा का सशर्त वितरण है और कुलबैक-लीब्लर विचलन है।

तब EM एल्गोरिथम के चरणों को इस प्रकार देखा जा सकता है:

अपेक्षा चरण: चुनें बढ़ाने के लिए :
अधिकतम चरण: चुनें बढ़ाने के लिए :


अनुप्रयोग

ईएम का उपयोग अक्सर मिश्रित मॉडलों के पैरामीटर आकलन के लिए किया जाता है,[20][21] विशेष रूप से मात्रात्मक आनुवंशिकी में।[22] साइकोमेट्रिक्स में, आइटम पैरामीटर और आइटम प्रतिक्रिया सिद्धांत मॉडल की गुप्त क्षमताओं का आकलन करने के लिए ईएम एक महत्वपूर्ण उपकरण है।

लापता डेटा से निपटने और अज्ञात चरों का निरीक्षण करने की क्षमता के साथ, EM एक पोर्टफोलियो के मूल्य निर्धारण और जोखिम का प्रबंधन करने के लिए एक उपयोगी उपकरण बन रहा है।[citation needed]

EM एल्गोरिद्म (और इसके तेज़ संस्करण ने सबसेट अपेक्षा अधिकतमीकरण का आदेश दिया) का व्यापक रूप से मेडिकल इमेजिंग पुनर्निर्माण में उपयोग किया जाता है, विशेष रूप से पोजीट्रान एमिशन टोमोग्राफी, सिंगल-फोटॉन एमिशन परिकलित टोमोग्राफी और एक्स-रे कंप्यूटेड टोमोग्राफी में। ईएम के अन्य तेज रूपों के लिए नीचे देखें।

संरचनागत वास्तुविद्या में, एक्सपेक्टेशन मैक्सिमाइजेशन (STRIDE) का उपयोग करके स्ट्रक्चरल आइडेंटिफिकेशन[23] एल्गोरिथम सेंसर डेटा का उपयोग करके एक संरचनात्मक प्रणाली के प्राकृतिक कंपन गुणों की पहचान करने के लिए केवल-आउटपुट विधि है (ऑपरेशनल मोडल विश्लेषण देखें)।

EM का उपयोग डेटा क्लस्टरिंग के लिए भी किया जाता है। प्राकृतिक भाषा प्रसंस्करण में, एल्गोरिथम के दो प्रमुख उदाहरण छिपे हुए मार्कोव मॉडल के लिए बॉम-वेल्च एल्गोरिथम हैं, और संभाव्य संदर्भ-मुक्त व्याकरण के अनपर्यवेक्षित प्रेरण के लिए अंदर-बाहर एल्गोरिथम हैं।

इंटरट्रेड वेटिंग टाइम के विश्लेषण में यानी शेयर बाजार में शेयर (वित्त) में बाद के ट्रेडों के बीच का समय ईएम एल्गोरिदम बहुत उपयोगी साबित हुआ है।[24]


ईएम एल्गोरिदम को छानना और चौरसाई करना

एक कलमन फिल्टर का उपयोग आम तौर पर ऑन-लाइन राज्य अनुमान के लिए किया जाता है और ऑफ़लाइन या बैच राज्य अनुमान के लिए न्यूनतम-विचरण स्मूथ को नियोजित किया जा सकता है। हालाँकि, इन न्यूनतम-विचरण समाधानों के लिए राज्य-अंतरिक्ष मॉडल मापदंडों के अनुमानों की आवश्यकता होती है। ईएम एल्गोरिदम का उपयोग संयुक्त राज्य और पैरामीटर आकलन समस्याओं को हल करने के लिए किया जा सकता है।

फ़िल्टरिंग और स्मूथिंग ईएम एल्गोरिदम इस दो-चरणीय प्रक्रिया को दोहराने से उत्पन्न होते हैं:

ई-कदम

अद्यतन राज्य अनुमान प्राप्त करने के लिए वर्तमान पैरामीटर अनुमानों के साथ डिज़ाइन किए गए कलमन फ़िल्टर या न्यूनतम-वैरिएंस स्मूथ को संचालित करें।

एम-स्टेप

अपडेट किए गए पैरामीटर अनुमानों को प्राप्त करने के लिए अधिकतम-संभावना गणनाओं के भीतर फ़िल्टर्ड या स्मूथ स्थिति अनुमानों का उपयोग करें।

मान लीजिए कि एक कलमन फ़िल्टर या न्यूनतम-विचरण स्मूथ एक एकल-इनपुट-एकल-आउटपुट सिस्टम के मापन पर संचालित होता है जिसमें योगात्मक सफेद शोर होता है। अधिकतम संभावना गणना से एक अद्यतन माप शोर भिन्नता अनुमान प्राप्त किया जा सकता है

कहाँ स्केलर आउटपुट अनुमान हैं जो फ़िल्टर द्वारा गणना की जाती हैं या एन स्केलर माप से चिकनी होती हैं . उपरोक्त अद्यतन को प्वासों माप शोर तीव्रता को अद्यतन करने के लिए भी लागू किया जा सकता है। इसी तरह, पहले क्रम के ऑटो-रिग्रेसिव प्रोसेस के लिए, एक अपडेटेड प्रोसेस नॉइज़ वेरिएंस एस्टीमेट की गणना किसके द्वारा की जा सकती है

कहाँ और स्केलर अवस्था के अनुमान हैं, जिनकी गणना किसी फ़िल्टर या स्मूदर द्वारा की जाती है। अद्यतन मॉडल गुणांक अनुमान के माध्यम से प्राप्त किया जाता है

उपरोक्त जैसे पैरामीटर अनुमानों के अभिसरण का अच्छी तरह से अध्ययन किया गया है।[25][26][27][28]


वेरिएंट

ईएम एल्गोरिथ्म के कभी-कभी धीमे अभिसरण में तेजी लाने के लिए कई तरीकों का प्रस्ताव किया गया है, जैसे संयुग्म ढाल और संशोधित न्यूटन के तरीकों (न्यूटन-रैफसन) का उपयोग करना।[29] इसके अलावा, EM का उपयोग विवश आकलन विधियों के साथ किया जा सकता है।

पैरामीटर-विस्तारित अपेक्षा अधिकतमकरण (पीएक्स-ईएम) एल्गोरिथ्म अक्सर एम चरण के विश्लेषण को सही करने के लिए हमारे [आईएनजी] एक 'सहप्रसरण समायोजन' द्वारा गति प्रदान करता है, आरोपित पूर्ण डेटा में कैप्चर की गई अतिरिक्त जानकारी पर पूंजीकरण करता है।[30] अपेक्षा सशर्त अधिकतमकरण (ईसीएम) प्रत्येक एम चरण को सशर्त अधिकतमकरण (सीएम) चरणों के अनुक्रम के साथ बदल देता है जिसमें प्रत्येक पैरामीटर θi व्यक्तिगत रूप से अधिकतम किया जाता है, सशर्त रूप से शेष अन्य मापदंडों पर।[31] खुद को एक्सपेक्टेशन कंडीशनल मैक्सिमाइज़ेशन या तो (ECME) एल्गोरिथम में विस्तारित किया जा सकता है।[32] इस विचार को सामान्यीकृत अपेक्षा अधिकतमकरण (जीईएम) एल्गोरिथ्म में आगे बढ़ाया गया है, जिसमें ई चरण और एम चरण दोनों के लिए केवल उद्देश्य समारोह एफ में वृद्धि की मांग की गई है जैसा कि #अधिकतमकरण-अधिकतमकरण प्रक्रिया में वर्णित है। अधिकतमकरण के रूप में- अधिकतमकरण प्रक्रिया अनुभाग।[18]GEM को एक वितरित वातावरण में और विकसित किया गया है और आशाजनक परिणाम दिखाता है।[33] EM एल्गोरिथम को MM एल्गोरिथम के उपवर्ग के रूप में माना जा सकता है (संदर्भ के आधार पर मेजराइज़ / मिनिमाइज़ या माइनराइज़ / मैक्सिमाइज़एमएम एल्गोरिदम,[34] और इसलिए अधिक सामान्य स्थिति में विकसित किसी भी मशीनरी का उपयोग करें।

α-EM एल्गोरिथ्म

ईएम एल्गोरिथ्म में प्रयुक्त क्यू-फ़ंक्शन लॉग संभावना पर आधारित है। इसलिए, इसे लॉग-ईएम एल्गोरिथम माना जाता है। लॉग संभावना का उपयोग α-लॉग संभावना अनुपात के लिए सामान्यीकृत किया जा सकता है। फिर, देखे गए डेटा के α-लॉग संभावना अनुपात को α-लॉग संभावना अनुपात और α-विचलन के क्यू-फ़ंक्शन का उपयोग करके बिल्कुल समानता के रूप में व्यक्त किया जा सकता है। इस Q-फ़ंक्शन को प्राप्त करना एक सामान्यीकृत E चरण है। इसका अधिकतमीकरण एक सामान्यीकृत M चरण है। इस जोड़ी को α-EM एल्गोरिथम कहा जाता है[35] जिसमें लॉग-ईएम एल्गोरिथ्म इसके उपवर्ग के रूप में शामिल है। इस प्रकार, यासुओ मात्सुयामा द्वारा α-EM एल्गोरिथ्म लॉग-ईएम एल्गोरिथ्म का एक सटीक सामान्यीकरण है। ढाल या हेस्सियन मैट्रिक्स की कोई गणना आवश्यक नहीं है। Α-EM उचित α चुनकर लॉग-ईएम एल्गोरिदम की तुलना में तेजी से अभिसरण दिखाता है। Α-EM एल्गोरिथ्म हिडन मार्कोव मॉडल अनुमान एल्गोरिथ्म α-HMM के तेज संस्करण की ओर जाता है। [36]


वेरिएबल बेयस विधियों से संबंध

EM आंशिक रूप से गैर-बायेसियन, अधिकतम संभावना विधि है। इसका अंतिम परिणाम θ (या तो अधिकतम संभावना अनुमान या पश्च मोड) के लिए एक बिंदु अनुमान के साथ अव्यक्त चर (बायेसियन शैली में) पर एक संभाव्यता वितरण देता है। इसका एक पूरी तरह से बायेसियन संस्करण चाहा जा सकता है, जिससे θ और अव्यक्त चर पर प्रायिकता वितरण दिया जा सके। अनुमान के लिए बायेसियन दृष्टिकोण केवल θ को एक अन्य अव्यक्त चर के रूप में मानने के लिए है। इस प्रतिमान में, ई और एम चरणों के बीच का अंतर गायब हो जाता है। यदि ऊपर बताए अनुसार गुणनखंडित Q सन्निकटन का उपयोग कर रहे हैं (वैरिएबल बेज़), हल करना प्रत्येक अव्यक्त चर (अब θ सहित) पर पुनरावृति कर सकता है और उन्हें एक बार में अनुकूलित कर सकता है। अब, k चरण प्रति पुनरावृत्ति की आवश्यकता है, जहाँ k अव्यक्त चर की संख्या है। ग्राफिकल मॉडल के लिए यह करना आसान है क्योंकि प्रत्येक वेरिएबल का नया क्यू केवल उसके मार्कोव कंबल पर निर्भर करता है, इसलिए कुशल अनुमान के लिए स्थानीय संदेश पासिंग (बहुविकल्पी) का उपयोग किया जा सकता है।

ज्यामितीय व्याख्या

सूचना ज्यामिति में, ई चरण और एम चरण को दोहरे संबंध कनेक्शन के तहत अनुमानों के रूप में व्याख्या किया जाता है, जिसे ई-कनेक्शन और एम-कनेक्शन कहा जाता है; कुल्बैक-लीब्लर विचलन को इन शब्दों में भी समझा जा सकता है।

उदाहरण

गाऊसी मिश्रण

के-मीन्स और ईएम की तुलना। भिन्नताओं का उपयोग करते हुए, ईएम एल्गोरिदम सामान्य वितरण का सटीक वर्णन कर सकता है, जबकि के-साधन डेटा को वोरोनोई आरेख-कोशिकाओं में विभाजित करता है। क्लस्टर केंद्र को हल्के, बड़े प्रतीक द्वारा दर्शाया गया है।
ओल्ड फेथफुल डेटासेट के लिए दो घटक गॉसियन मिश्रण मॉडल को फिट करने वाले ईएम एल्गोरिदम को प्रदर्शित करने वाला एक एनीमेशन। एल्गोरिथ्म एक यादृच्छिक आरंभीकरण से अभिसरण तक कदम उठाता है।

होने देना का नमूना हो आयाम के दो बहुभिन्नरूपी सामान्य वितरणों के मिश्रण मॉडल से स्वतंत्र अवलोकन , और जाने अव्यक्त चर हैं जो उस घटक को निर्धारित करते हैं जिससे अवलोकन उत्पन्न होता है।[19]: और

कहाँ

और

इसका उद्देश्य गॉसियन और प्रत्येक के साधनों और सहसंयोजकों के बीच मिश्रण मूल्य का प्रतिनिधित्व करने वाले अज्ञात मापदंडों का अनुमान लगाना है:

जहां अपूर्ण-डेटा संभावना कार्य है

और पूर्ण-डेटा संभावना कार्य है

या

कहाँ एक संकेतक कार्य है और बहुभिन्नरूपी सामान्य का प्रायिकता घनत्व फलन है।

अंतिम समानता में, प्रत्येक के लिए i, एक संकेतक शून्य के बराबर है, और एक संकेतक एक के बराबर है। आंतरिक योग इस प्रकार एक शब्द तक कम हो जाता है।

ई चरण

पैरामीटर θ के हमारे वर्तमान अनुमान को देखते हुए(t), Z का सशर्त वितरणi बेयस प्रमेय द्वारा निर्धारित किया जाता है कि सामान्य संभाव्यता घनत्व समारोह की आनुपातिक ऊंचाई τ द्वारा भारित होती है:

इन्हें सदस्यता संभावनाएं कहा जाता है, जिन्हें आम तौर पर ई चरण का आउटपुट माना जाता है (हालांकि यह नीचे का क्यू फ़ंक्शन नहीं है)।

यह E चरण Q के लिए इस फ़ंक्शन को सेट करने के संगत है:

की अपेक्षा योग के अंदर संभाव्यता घनत्व समारोह के संबंध में लिया जाता है , जो प्रत्येक के लिए अलग हो सकता है प्रशिक्षण सेट की। ई चरण में सब कुछ कदम उठाए जाने से पहले जाना जाता है सिवाय , जिसकी गणना ई चरण खंड की शुरुआत में समीकरण के अनुसार की जाती है।

इस पूर्ण सशर्त अपेक्षा को एक चरण में गणना करने की आवश्यकता नहीं है, क्योंकि τ और 'μ'/'Σ' अलग-अलग रैखिक शब्दों में दिखाई देते हैं और इस प्रकार स्वतंत्र रूप से अधिकतम हो सकते हैं।

एम कदम

क्यू(θ | θ(t)) के रूप में द्विघात होने का मतलब है कि θ के अधिकतम मानों को निर्धारित करना अपेक्षाकृत सरल है। साथ ही, τ, ('μ'1,एस1) और (μ2,एस2) सभी को स्वतंत्र रूप से अधिकतम किया जा सकता है क्योंकि वे सभी अलग-अलग रैखिक शब्दों में दिखाई देते हैं।

शुरू करने के लिए, τ पर विचार करें, जिसमें बाधा τ है1 + टी2=1:

यह द्विपद वितरण के लिए एमएलई के समान रूप है, इसलिए

के अगले अनुमान के लिए (μ1,एस1):

यह सामान्य वितरण के लिए भारित एमएलई के समान रूप है, इसलिए

और

और, समरूपता से,

और


समाप्ति

पुनरावृत्त प्रक्रिया को समाप्त करें यदि के लिए कुछ पूर्व निर्धारित दहलीज के नीचे।

सामान्यीकरण

ऊपर वर्णित एल्गोरिथ्म को दो से अधिक बहुभिन्नरूपी सामान्य वितरणों के मिश्रण के लिए सामान्यीकृत किया जा सकता है।

कटा हुआ और सेंसर किया गया प्रतिगमन

EM एल्गोरिथ्म को उस मामले में लागू किया गया है जहां एक अंतर्निहित रेखीय प्रतिगमन मॉडल मौजूद है जो कुछ मात्रा की भिन्नता को समझाता है, लेकिन जहां वास्तव में देखे गए मान मॉडल में दर्शाए गए लोगों के सेंसर किए गए या काट-छाँट किए गए संस्करण हैं।[37] इस मॉडल के विशेष मामलों में एक सामान्य वितरण से सेंसर किए गए या काट-छाँट किए गए अवलोकन शामिल हैं।[37]


विकल्प

ईएम आम तौर पर एक स्थानीय इष्टतम में अभिसरण करता है, जरूरी नहीं कि वैश्विक इष्टतम, सामान्य रूप से अभिसरण दर पर कोई बाध्यता न हो। यह संभव है कि यह मनमाने ढंग से उच्च आयामों में खराब हो सकता है और स्थानीय ऑप्टिमा की एक घातीय संख्या हो सकती है। इसलिए, विशेष रूप से उच्च-आयामी सेटिंग में, गारंटीकृत शिक्षण के लिए वैकल्पिक तरीकों की आवश्यकता मौजूद है। ईएम के विकल्प स्थिरता के लिए बेहतर गारंटी के साथ मौजूद हैं, जिन्हें पल-आधारित दृष्टिकोण कहा जाता है[38] या तथाकथित वर्णक्रमीय तकनीक[39][40][citation needed]. एक संभाव्य मॉडल के मापदंडों को सीखने के लिए क्षण-आधारित दृष्टिकोण हाल ही में बढ़ रहे हैं[when?] चूंकि वे ईएम के विपरीत कुछ शर्तों के तहत वैश्विक अभिसरण जैसी गारंटी का आनंद लेते हैं, जो अक्सर स्थानीय ऑप्टिमा में फंसने के मुद्दे से ग्रस्त होता है। सीखने की गारंटी के साथ एल्गोरिदम कई महत्वपूर्ण मॉडलों जैसे मिश्रण मॉडल, एचएमएम आदि के लिए प्राप्त किए जा सकते हैं। इन वर्णक्रमीय तरीकों के लिए, कोई नकली स्थानीय ऑप्टिमा नहीं होता है, और कुछ नियमितता स्थितियों के तहत सही मापदंडों का लगातार अनुमान लगाया जा सकता है।[citation needed].

यह भी देखें


संदर्भ

  1. Meng, X.-L.; van Dyk, D. (1997). "The EM algorithm – an old folk-song sung to a fast new tune". J. Royal Statist. Soc. B. 59 (3): 511–567.
  2. Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). "Maximum Likelihood from Incomplete Data via the EM Algorithm". Journal of the Royal Statistical Society, Series B. 39 (1): 1–38. JSTOR 2984875. MR 0501537.
  3. Ceppelini, R.M. (1955). "एक यादृच्छिक संभोग आबादी में जीन आवृत्तियों का अनुमान". Ann. Hum. Genet. 20 (2): 97–115. doi:10.1111/j.1469-1809.1955.tb01360.x. PMID 13268982. S2CID 38625779.
  4. Hartley, Herman Otto (1958). "अपूर्ण डेटा से अधिकतम संभावना अनुमान". Biometrics. 14 (2): 174–194. doi:10.2307/2527783. JSTOR 2527783.
  5. Ng, Shu Kay; Krishnan, Thriyambakam; McLachlan, Geoffrey J. (2011-12-21), "The EM Algorithm", Handbook of Computational Statistics, Berlin, Heidelberg: Springer Berlin Heidelberg, pp. 139–172, doi:10.1007/978-3-642-21551-3_6, ISBN 978-3-642-21550-6, S2CID 59942212, retrieved 2022-10-15
  6. Sundberg, Rolf (1974). "Maximum likelihood theory for incomplete data from an exponential family". Scandinavian Journal of Statistics. 1 (2): 49–58. JSTOR 4615553. MR 0381110.
  7. 7.0 7.1 Rolf Sundberg. 1971. Maximum likelihood theory and applications for distributions generated when observing a function of an exponential family variable. Dissertation, Institute for Mathematical Statistics, Stockholm University.
  8. 8.0 8.1 Sundberg, Rolf (1976). "An iterative method for solution of the likelihood equations for incomplete data from exponential families". Communications in Statistics – Simulation and Computation. 5 (1): 55–64. doi:10.1080/03610917608812007. MR 0443190.
  9. See the acknowledgement by Dempster, Laird and Rubin on pages 3, 5 and 11.
  10. 10.0 10.1 प्रति मार्टिन-लोफ। 1966. सांख्यिकीय यांत्रिकी के दृष्टिकोण से सांख्यिकी। व्याख्यान नोट्स, गणितीय संस्थान, आरहस विश्वविद्यालय। (सुंदरबर्ग फॉर्मूला, एंडर्स मार्टिन-लोफ को श्रेय)।
  11. 11.0 11.1 {{cite journal |last=Martin-Löf |first=Per |title=अतिरेक की धारणा और एक सांख्यिकीय परिकल्पना और अवलोकन संबंधी डेटा के एक सेट के बीच विसंगति के मात्रात्मक माप के रूप में इसका उपयोग|journal=Scand. J. Statist. |volume=1 |year=1974 |issue=1 |pages=3–18 }
  12. 12.0 12.1 Cite error: Invalid <ref> tag; no text was provided for refs named Wu
  13. Sundberg, Rolf (2019). घातीय परिवारों द्वारा सांख्यिकीय मॉडलिंग. Cambridge University Press. ISBN 9781108701112.
  14. Laird, Nan (2006). "सुंदरबर्ग सूत्र". Wiley online library. Wiley.
  15. Cite error: Invalid <ref> tag; no text was provided for refs named Martin-Löf1970
  16. Cite error: Invalid <ref> tag; no text was provided for refs named Martin-Löf1974a
  17. Little, Roderick J.A.; Rubin, Donald B. (1987). गायब डेटा के साथ सांख्यिकीय विश्लेषण. Wiley Series in Probability and Mathematical Statistics. New York: John Wiley & Sons. pp. 134–136. ISBN 978-0-471-80254-9.
  18. 18.0 18.1 Neal, Radford; Hinton, Geoffrey (1999). Michael I. Jordan (ed.). ईएम एल्गोरिदम का एक दृश्य जो वृद्धिशील, विरल और अन्य वेरिएंट को सही ठहराता है (PDF). Learning in Graphical Models. Cambridge, MA: MIT Press. pp. 355–368. ISBN 978-0-262-60032-3. Retrieved 2009-03-22.
  19. 19.0 19.1 Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2001). "8.5 The EM algorithm". सांख्यिकीय सबक के तत्व. New York: Springer. pp. 236–243. ISBN 978-0-387-95284-0.
  20. Lindstrom, Mary J; Bates, Douglas M (1988). "Newton—Raphson and EM Algorithms for Linear Mixed-Effects Models for Repeated-Measures Data". Journal of the American Statistical Association. 83 (404): 1014. doi:10.1080/01621459.1988.10478693.
  21. Van Dyk, David A (2000). "कुशल EM-प्रकार एल्गोरिदम का उपयोग करके मिश्रित-प्रभाव वाले मॉडल को फ़िट करना". Journal of Computational and Graphical Statistics. 9 (1): 78–98. doi:10.2307/1390614. JSTOR 1390614.
  22. Diffey, S. M; Smith, A. B; Welsh, A. H; Cullis, B. R (2017). "रैखिक मिश्रित मॉडल के लिए एक नया आरईएमएल (पैरामीटर विस्तारित) ईएम एल्गोरिदम". Australian & New Zealand Journal of Statistics. 59 (4): 433. doi:10.1111/anzs.12208.
  23. Matarazzo, T. J., and Pakzad, S. N. (2016). “STRIDE for Structural Identification using Expectation Maximization: Iterative Output-Only Method for Modal Identification.” Journal of Engineering Mechanics.http://ascelibrary.org/doi/abs/10.1061/(ASCE)EM.1943-7889.0000951
  24. Kreer, Markus; Kizilersu, Ayse; Thomas, Anthony W. (2022). "Censored expectation maximization algorithm for mixtures: Application to intertrade waiting times". Physica A: Statistical Mechanics and its Applications. 587 (1): 126456. doi:10.1016/j.physa.2021.126456. ISSN 0378-4371.
  25. Einicke, G. A.; Malos, J. T.; Reid, D. C.; Hainsworth, D. W. (January 2009). "Riccati Equation and EM Algorithm Convergence for Inertial Navigation Alignment". IEEE Trans. Signal Process. 57 (1): 370–375. Bibcode:2009ITSP...57..370E. doi:10.1109/TSP.2008.2007090. S2CID 1930004.
  26. Einicke, G. A.; Falco, G.; Malos, J. T. (May 2010). "EM Algorithm State Matrix Estimation for Navigation". IEEE Signal Processing Letters. 17 (5): 437–440. Bibcode:2010ISPL...17..437E. doi:10.1109/LSP.2010.2043151. S2CID 14114266.
  27. Einicke, G. A.; Falco, G.; Dunn, M. T.; Reid, D. C. (May 2012). "Iterative Smoother-Based Variance Estimation". IEEE Signal Processing Letters. 19 (5): 275–278. Bibcode:2012ISPL...19..275E. doi:10.1109/LSP.2012.2190278. S2CID 17476971.
  28. Einicke, G. A. (Sep 2015). "Iterative Filtering and Smoothing of Measurements Possessing Poisson Noise". IEEE Transactions on Aerospace and Electronic Systems. 51 (3): 2205–2011. Bibcode:2015ITAES..51.2205E. doi:10.1109/TAES.2015.140843. S2CID 32667132.
  29. Jamshidian, Mortaza; Jennrich, Robert I. (1997). "अर्ध-न्यूटन विधियों का उपयोग करके EM एल्गोरिथम का त्वरण". Journal of the Royal Statistical Society, Series B. 59 (2): 569–587. doi:10.1111/1467-9868.00083. MR 1452026. S2CID 121966443.
  30. Liu, C (1998). "Parameter expansion to accelerate EM: The PX-EM algorithm". Biometrika. 85 (4): 755–770. CiteSeerX 10.1.1.134.9617. doi:10.1093/biomet/85.4.755.
  31. Meng, Xiao-Li; Rubin, Donald B. (1993). "Maximum likelihood estimation via the ECM algorithm: A general framework". Biometrika. 80 (2): 267–278. doi:10.1093/biomet/80.2.267. MR 1243503. S2CID 40571416.
  32. Liu, Chuanhai; Rubin, Donald B (1994). "The ECME Algorithm: A Simple Extension of EM and ECM with Faster Monotone Convergence". Biometrika. 81 (4): 633. doi:10.1093/biomet/81.4.633. JSTOR 2337067.
  33. Jiangtao Yin; Yanfeng Zhang; Lixin Gao (2012). "Accelerating Expectation–Maximization Algorithms with Frequent Updates" (PDF). Proceedings of the IEEE International Conference on Cluster Computing.
  34. Hunter DR and Lange K (2004), A Tutorial on MM Algorithms, The American Statistician, 58: 30–37
  35. Matsuyama, Yasuo (2003). "The α-EM algorithm: Surrogate likelihood maximization using α-logarithmic information measures". IEEE Transactions on Information Theory. 49 (3): 692–706. doi:10.1109/TIT.2002.808105.
  36. Matsuyama, Yasuo (2011). "Hidden Markov model estimation based on alpha-EM algorithm: Discrete and continuous alpha-HMMs". International Joint Conference on Neural Networks: 808–816.
  37. 37.0 37.1 Wolynetz, M.S. (1979). "सीमित और सेंसर किए गए सामान्य डेटा से एक रेखीय मॉडल में अधिकतम संभावना अनुमान". Journal of the Royal Statistical Society, Series C. 28 (2): 195–206. doi:10.2307/2346749. JSTOR 2346749.
  38. Pearson, Karl (1894). "विकास के गणितीय सिद्धांत में योगदान". Philosophical Transactions of the Royal Society of London A. 185: 71–110. Bibcode:1894RSPTA.185...71P. doi:10.1098/rsta.1894.0003. ISSN 0264-3820. JSTOR 90667.
  39. Shaban, Amirreza; Mehrdad, Farajtabar; Bo, Xie; Le, Song; Byron, Boots (2015). "बाहरी बिंदु विधि के साथ वर्णक्रमीय समाधानों में सुधार करके अव्यक्त चर मॉडल सीखना" (PDF). UAI: 792–801.
  40. Balle, Borja Quattoni, Ariadna Carreras, Xavier (2012-06-27). Local Loss Optimization in Operator Models: A New Insight into Spectral Learning. OCLC 815865081.{{cite book}}: CS1 maint: multiple names: authors list (link)
  41. Lange, Kenneth. "एमएम एल्गोरिदम" (PDF).


अग्रिम पठन

  • Hogg, Robert; McKean, Joseph; Craig, Allen (2005). Introduction to Mathematical Statistics. Upper Saddle River, NJ: Pearson Prentice Hall. pp. 359–364.
  • Dellaert, Frank (2002). "The Expectation Maximization Algorithm". CiteSeerX 10.1.1.9.9735. {{cite journal}}: Cite journal requires |journal= (help) gives an easier explanation of EM algorithm as to lowerbound maximization.
  • Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. ISBN 978-0-387-31073-2.
  • Gupta, M. R.; Chen, Y. (2010). "Theory and Use of the EM Algorithm". Foundations and Trends in Signal Processing. 4 (3): 223–296. CiteSeerX 10.1.1.219.6830. doi:10.1561/2000000034. A well-written short book on EM, including detailed derivation of EM for GMMs, HMMs, and Dirichlet.
  • Bilmes, Jeff (1998). "A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models". CiteSeerX 10.1.1.28.613. {{cite journal}}: Cite journal requires |journal= (help) includes a simplified derivation of the EM equations for Gaussian Mixtures and Gaussian Mixture Hidden Markov Models.
  • McLachlan, Geoffrey J.; Krishnan, Thriyambakam (2008). The EM Algorithm and Extensions (2nd ed.). Hoboken: Wiley. ISBN 978-0-471-20170-0.


बाहरी संबंध