नमूना माध्य और सहप्रसरण

From alpha
Jump to navigation Jump to search

नमूना माध्य (या अनुभवजन्य माध्य) और नमूना सहप्रसरण एक या एक से अधिक यादृच्छिक चर पर डेटा के नमूने (सांख्यिकी) से गणना किए गए आँकड़े हैं।

नमूना माध्य संख्याओं की एक बड़ी सांख्यिकीय आबादी से लिए गए नमूनों (आँकड़ों) का औसत मूल्य (या माध्य) है, जहाँ जनसंख्या लोगों की संख्या नहीं बल्कि प्रासंगिक डेटा की संपूर्णता को इंगित करती है, चाहे एकत्र किया गया हो या नहीं। फार्च्यून 500 से 40 कंपनियों की बिक्री का एक नमूना जनसंख्या, सभी 500 कंपनियों की बिक्री को देखने के बजाय सुविधा के लिए इस्तेमाल किया जा सकता है। नमूना माध्य का उपयोग जनसंख्या माध्य के लिए एक अनुमानक के रूप में किया जाता है, संपूर्ण जनसंख्या में औसत मूल्य, जहां अनुमान जनसंख्या के करीब होने की अधिक संभावना है, यदि नमूना बड़ा और प्रतिनिधि है। नमूना माध्य की विश्वसनीयता का अनुमान मानक त्रुटि का उपयोग करके लगाया जाता है, जो बदले में नमूने के विचरण का उपयोग करके गणना की जाती है। यदि नमूना यादृच्छिक है, तो नमूना के आकार के साथ मानक त्रुटि गिरती है और नमूना का आकार बढ़ने पर नमूना माध्य का वितरण सामान्य वितरण तक पहुंच जाता है।

नमूना माध्य शब्द का उपयोग औसत मूल्यों के एक वेक्टर (गणित और भौतिकी) को संदर्भित करने के लिए भी किया जा सकता है, जब सांख्यिकीविद नमूने में कई चर के मूल्यों को देख रहे हों, उदा। फॉर्च्यून 500 कंपनियों के नमूने की बिक्री, मुनाफा और कर्मचारी। इस मामले में, प्रत्येक चर के लिए केवल एक नमूना भिन्नता नहीं है, लेकिन एक नमूना भिन्नता-सहप्रसरण मैट्रिक्स (या बस सहप्रसरण) चर के प्रत्येक जोड़े के बीच संबंध भी दिखा रहा है। यह एक 3×3 मैट्रिक्स होगा जब 3 चरों पर विचार किया जा रहा है। नमूना सहप्रसरण नमूने की विश्वसनीयता का अनुमान लगाने वालों के रूप में उपयोगी है और जनसंख्या सहप्रसरण मैट्रिक्स के अनुमान के रूप में भी उपयोगी है।

उनकी गणना में आसानी और अन्य वांछनीय विशेषताओं के कारण, नमूना माध्य और नमूना सहप्रसरण का उपयोग आँकड़ों में व्यापक रूप से किया जाता है ताकि नमूने में मूल्यों के संभाव्यता वितरण के स्थान और सांख्यिकीय फैलाव का प्रतिनिधित्व किया जा सके और जनसंख्या के मूल्यों का अनुमान लगाया जा सके।

नमूना माध्य की परिभाषा

नमूना माध्य एक नमूने में एक चर के मानों का औसत है, जो उन मानों का योग है जो मानों की संख्या से विभाजित होता है। गणितीय संकेतन का उपयोग करते हुए, यदि जनसंख्या से चर X पर N अवलोकनों का एक नमूना लिया जाता है, तो नमूना माध्य है:

इस परिभाषा के तहत, यदि नमूना (1, 4, 1) जनसंख्या (1,1,3,4,0,2,1,0) से लिया जाता है, तो नमूना माध्य है , जनसंख्या माध्य की तुलना में . यहां तक ​​कि अगर एक नमूना यादृच्छिक है, तो यह शायद ही कभी पूरी तरह से प्रतिनिधि है, और अन्य नमूने के पास अन्य नमूना साधन होंगे, भले ही नमूने एक ही आबादी से हों। नमूना (2, 1, 0), उदाहरण के लिए, 1 का नमूना माध्य होगा।

यदि सांख्यिकीविद् एक के बजाय K चर में रुचि रखता है, तो प्रत्येक अवलोकन में उन K चरों में से प्रत्येक के लिए एक मान होता है, समग्र नमूना माध्य में व्यक्तिगत चर के लिए K नमूना साधन होते हैं। होने देना मैं होth j पर स्वतंत्र रूप से अवलोकन (i=1,...,N) बनाया गया हैth यादृच्छिक चर (j=1,...,K). इन प्रेक्षणों को N में व्यवस्थित किया जा सकता है कॉलम वैक्टर, प्रत्येक K प्रविष्टियों के साथ, K × 1 कॉलम वेक्टर के साथ सभी चरों के i-th अवलोकनों को निरूपित किया जा रहा है (मैं = 1,..., एन)।

'नमूना मतलब वेक्टर' एक कॉलम वेक्टर है जिसका जे-वें तत्व है जे के एन अवलोकनों का औसत मूल्य हैवें चर:

इस प्रकार, नमूना माध्य वेक्टर में प्रत्येक चर के लिए टिप्पणियों का औसत होता है, और लिखा जाता है


नमूना सहप्रसरण की परिभाषा

नमूना सहप्रसरण मैट्रिक्स एक K-by-K मैट्रिक्स (गणित) है प्रविष्टियों के साथ

कहाँ के बीच सहप्रसरण का अनुमान है jवें चर और kth डेटा अंतर्निहित जनसंख्या का चर। अवलोकन सदिशों के संदर्भ में, नमूना सहप्रसरण है

वैकल्पिक रूप से, प्रेक्षण सदिशों को आव्यूह के स्तंभों के रूप में व्यवस्थित करना, ताकि

,

जो K पंक्तियों और N स्तंभों का एक मैट्रिक्स है। यहाँ, नमूना सहप्रसरण मैट्रिक्स की गणना इस प्रकार की जा सकती है

,

कहाँ द्वारा एक एन है 1 लोगों का वेक्टर। यदि प्रेक्षणों को स्तंभों के बजाय पंक्तियों के रूप में व्यवस्थित किया जाता है, तो अब एक 1×K पंक्ति सदिश है और एक एन × के मैट्रिक्स है जिसका कॉलम जे वेरिएबल जे पर एन अवलोकनों का वेक्टर है, फिर ट्रांसपोज़ लागू करता है उपयुक्त स्थानों पर फल देता है

बहुभिन्नरूपी यादृच्छिक चर के लिए सहप्रसरण आव्यूहों की तरह, नमूना सहप्रसरण आव्यूह धनात्मक अर्ध-निश्चित आव्यूह | धनात्मक अर्ध-निश्चित होते हैं। इसे साबित करने के लिए, ध्यान दें कि किसी भी मैट्रिक्स के लिए गणित का सवाल सकारात्मक अर्ध-निश्चित है। इसके अलावा, एक सहप्रसरण मैट्रिक्स सकारात्मक निश्चित है अगर और केवल अगर की रैंक वैक्टर K है।

निष्पक्षता

नमूना माध्य और नमूना सहप्रसरण मैट्रिक्स माध्य के एक अनुमानक और यादृच्छिक सदिश के सहप्रसरण मैट्रिक्स के पूर्वाग्रह हैं , एक पंक्ति सदिश जिसका jth तत्व (j = 1, ..., K) यादृच्छिक चरों में से एक है।[1] नमूना सहप्रसरण मैट्रिक्स है के बजाय भाजक में बेसेल के सुधार के एक प्रकार के कारण: संक्षेप में, नमूना सहप्रसरण प्रत्येक अवलोकन और नमूना माध्य के बीच के अंतर पर निर्भर करता है, लेकिन नमूना माध्य प्रत्येक अवलोकन के साथ थोड़ा सहसंबद्ध होता है क्योंकि यह सभी अवलोकनों के संदर्भ में परिभाषित किया गया है। अगर जनसंख्या का मतलब है जाना जाता है, अनुरूप निष्पक्ष अनुमान

जनसंख्या माध्य का उपयोग करते हुए, है भाजक में। यह एक उदाहरण है कि संभाव्यता और सांख्यिकी में यादृच्छिक चर (अपर केस अक्षर) और यादृच्छिक चर (लोअर केस अक्षर) की प्राप्ति (संभावना) के बीच अंतर करना क्यों आवश्यक है।

सहप्रसरण मैट्रिसेस का अधिकतम संभावना अनुमान

गाऊसी बंटन मामले के लिए हर में भी N है। बड़े N के लिए 1/N से 1/(N − 1) का अनुपात 1 तक पहुंचता है, इसलिए अधिकतम संभावना अनुमान लगभग निष्पक्ष अनुमान के बराबर होता है जब नमूना बड़ा होता है।

नमूना माध्य का वितरण

प्रत्येक यादृच्छिक चर के लिए, नमूना माध्य जनसंख्या माध्य का एक अच्छा अनुमानक है, जहाँ एक अच्छे अनुमानक को कुशल और निष्पक्ष होने के रूप में परिभाषित किया जाता है। निश्चित रूप से अनुमानक सांख्यिकीय जनसंख्या माध्य का सही मूल्य नहीं होगा क्योंकि एक ही वितरण से लिए गए विभिन्न नमूने अलग-अलग नमूना साधन देंगे और इसलिए सही माध्य के अलग-अलग अनुमान होंगे। इस प्रकार नमूना माध्य एक यादृच्छिक चर है, स्थिर नहीं है, और फलस्वरूप इसका अपना वितरण है। जे पर एन टिप्पणियों के एक यादृच्छिक नमूने के लिएवें यादृच्छिक चर, नमूना माध्य के वितरण का माध्य जनसंख्या माध्य के बराबर होता है और विचरण के बराबर , कहाँ जनसंख्या विचरण है।

एक सांख्यिकीय जनसंख्या, या जनसंख्या माध्य का अंकगणितीय माध्य, अक्सर μ निरूपित किया जाता है।[2] नमूना मतलब (आबादी से निकाले गए मूल्यों के नमूने का अंकगणितीय माध्य) जनसंख्या माध्य का एक अच्छा अनुमानक बनाता है, क्योंकि इसका अपेक्षित मूल्य जनसंख्या माध्य के बराबर है (अर्थात यह एक निष्पक्ष अनुमानक है)। नमूना माध्य एक यादृच्छिक चर है, स्थिर नहीं है, क्योंकि इसका परिकलित मान बेतरतीब ढंग से भिन्न होगा, जिसके आधार पर जनसंख्या के सदस्यों का नमूना लिया जाता है, और फलस्वरूप इसका अपना वितरण होगा। एन स्वतंत्रता (संभाव्यता सिद्धांत) टिप्पणियों के एक यादृच्छिक नमूने के लिए, नमूना माध्य का अपेक्षित मूल्य है

और नमूना माध्य का विचरण है

यदि नमूने स्वतंत्र नहीं हैं, लेकिन सहसंबंध हैं, तो छद्म प्रतिकृति की समस्या से बचने के लिए विशेष देखभाल की जानी चाहिए।

यदि जनसंख्या सामान्य वितरण है, तो नमूना माध्य सामान्य रूप से निम्नानुसार वितरित किया जाता है:

यदि जनसंख्या सामान्य रूप से वितरित नहीं की जाती है, तो नमूना माध्य फिर भी लगभग सामान्य रूप से वितरित किया जाता है यदि n बड़ा है और σ है2/n < +∞. यह केंद्रीय सीमा प्रमेय का परिणाम है।

भारित नमूने

भारित नमूने में, प्रत्येक वेक्टर (प्रत्येक K यादृच्छिक चर पर एकल अवलोकनों का प्रत्येक सेट) को एक भार सौंपा गया है . व्यापकता के नुकसान के बिना, मान लें कि वज़न सामान्यीकरण स्थिर है:

(यदि वे नहीं हैं, तो वजन को उनके योग से विभाजित करें)। फिर भारित माध्य वेक्टर द्वारा दिया गया है

और तत्व भारित सहप्रसरण मैट्रिक्स का हैं [3]

यदि सभी भार समान हैं, , भारित माध्य और सहप्रसरण ऊपर वर्णित (पक्षपाती) नमूना माध्य और सहप्रसरण तक कम हो जाते हैं।

आलोचना

नमूना माध्य और नमूना सहप्रसरण मजबूत आँकड़े नहीं हैं, जिसका अर्थ है कि वे बाहरी कारकों के कारण के प्रति संवेदनशील हैं। जैसा कि मजबूती अक्सर एक वांछित गुण है, विशेष रूप से वास्तविक दुनिया के अनुप्रयोगों में, मजबूत विकल्प वांछनीय साबित हो सकते हैं, विशेष रूप से मात्रा -आधारित आंकड़े जैसे कि स्थान के लिए नमूना माध्यिका,[4] और फैलाव के लिए अन्तःचतुर्थक श्रेणी (IQR)। अन्य विकल्पों में ट्रिम किए गए अनुमानक और जीतना शामिल हैं, जैसा कि ट्रिम किए गए माध्य और विन्सोराइज़्ड माध्य में है।

यह भी देखें

संदर्भ

  1. Richard Arnold Johnson; Dean W. Wichern (2007). अनुप्रयुक्त बहुभिन्नरूपी सांख्यिकीय विश्लेषण. Pearson Prentice Hall. ISBN 978-0-13-187715-3. Retrieved 10 August 2012.
  2. Underhill, L.G.; Bradfield d. (1998) Introstat, Juta and Company Ltd. ISBN 0-7021-3838-X p. 181
  3. Mark Galassi, Jim Davies, James Theiler, Brian Gough, Gerard Jungman, Michael Booth, and Fabrice Rossi. GNU Scientific Library - Reference manual, Version 2.6, 2021. Section Statistics: Weighted Samples
  4. The World Question Center 2006: The Sample Mean, Bart Kosko