रैंडम सबस्पेस विधि

From alpha
Jump to navigation Jump to search

यंत्र अधिगम में यादृच्छिक उपस्थान विधि,[1] विशेषता बैगिंग भी कहा जाता है[2] या फीचर बैगिंग, एक पहनावा सीखने की विधि है जो पूरे फीचर सेट के बजाय फ़ीचर (यंत्र अधिगम) के यादृच्छिक नमूनों पर प्रशिक्षण देकर अनुमानकों के बीच सहसंबंध और निर्भरता को कम करने का प्रयास करती है।जो उन्हें पूरे के अतिरिक्त सुविधाओं के यादृच्छिक नमूनों पर प्रशिक्षित करता है। विशेषता संग्रह।

प्रेरणा

समेकित अधिगम में कई शिक्षार्थियों द्वारा निर्मित मॉडलों को एक समूह में संयोजित करने का प्रयास किया जाता है जो मूल शिक्षार्थियों की तुलना में उत्तम प्रदर्शन करता है। शिक्षार्थियों के संयोजन का एक तरीका बूटस्ट्रैप एकत्रीकरण या बैगिंग है, जो प्रत्येक शिक्षार्थी को प्रशिक्षण बिंदुओं का एक यादृच्छिक रूप से नमूना सबसेट दिखाता है ताकि शिक्षार्थी अलग-अलग सांख्यिकीय मॉडल तैयार कर सकें जो समझदारी से औसत हो सकते हैं।[lower-alpha 1] बैगिंग में, एक नमूना प्रशिक्षण बिंदु पूर्ण प्रशिक्षण सेट से प्रतिस्थापन के साथ नमूनाकरण करता है।

यादृच्छिक उपस्थान विधि बैगिंग के समान है, सिवाय इसके कि फ़ीचर (यंत्र अधिगम) (विशेषताएँ, भविष्यवक्ता, स्वतंत्र चर) प्रत्येक शिक्षार्थी के लिए प्रतिस्थापन के साथ यादृच्छिक रूप से नमूने लिए जाते हैं। अनौपचारिक रूप से, यह व्यक्तिगत शिक्षार्थियों को उन विशेषताओं पर अधिक ध्यान केंद्रित नहीं करने का कारण बनता है जो प्रशिक्षण सेट में अत्यधिक भविष्य कहनेवाला / वर्णनात्मक दिखाई देते हैं, लेकिन उस सेट के बाहर के बिंदुओं के लिए भविष्यवाणी करने में विफल रहते हैं। इस कारण से, यादृच्छिक उप-स्थान उच्च-आयामी समस्याओं के लिए एक आकर्षक विकल्प हैं जहां प्रशिक्षण बिंदुओं की संख्या की तुलना में सुविधाओं की संख्या बहुत बड़ी है, जैसे एफएमआरआई डेटा से सीखना[3] या जीन अभिव्यक्ति डेटा से सीखना।[4]

यादृच्छिक उपस्थान विधि का उपयोग निर्णय वृक्ष सीखने के लिए किया गया है; जब निर्णय वृक्षों की "साधारण" बैगिंग के साथ जोड़ा जाता है, तो परिणामी मॉडल यादृच्छिक वन कहलाते हैं।[5] इसे रैखिक वर्गीकारकों पर भी लागू किया गया है,[6] समर्थन वेक्टर यंत्र,[7] निकटतम पड़ोसी वर्गीकारक[8][9] और अन्य प्रकार के क्लासिफायरियर। यह विधि एक-श्रेणी के वर्गीकारकों पर भी लागू होती है।[10][11] यादृच्छिक उपस्थान पद्धति को पोर्टफोलियो (वित्त) चयन समस्या पर भी लागू किया गया है[12][13][14][15] जो अनिवार्य रूप से बैगिंग पर आधारित पारंपरिक पुनर्नमूनाकृत कुशल फ्रंटियर के लिए अपनी श्रेष्ठता दिखाती है।

उच्च-आयामी विरल समस्याओं से निपटने के लिए यादृच्छिक उपस्थान एन्सेम्बल (RaSE) नाम का एक रूपरेखा[16] विकसित किया गया था। आरएएसई यादृच्छिक उप-स्थानों में प्रशिक्षित कमजोर शिक्षार्थियों को दो-परत संरचना और पुनरावृत्त प्रक्रिया के साथ जोड़ता है।[17] RaSE को आकर्षक सैद्धांतिक गुणों और व्यावहारिक प्रदर्शनों का आनंद लेने के लिए दिखाया गया है।[16]

कलन विधि

निम्नलिखित एल्गोरिथम का उपयोग करके यादृच्छिक सबस्पेस विधि को नियोजित करने वाले मॉडलों का एक समूह बनाया जा सकता है:

  1. बता दें कि प्रशिक्षण बिंदुओं की संख्या एन है और प्रशिक्षण डेटा में सुविधाओं की संख्या D है।
  2. बता दें कि एल पहनावा में अलग-अलग मॉडलों की संख्या है।
  3. प्रत्येक व्यक्तिगत मॉडल एल के लिए, एल के लिए इनपुट बिंदुओं की संख्या होने के लिए एनएल (एनएल <एन) चुनें। सभी अलग-अलग मॉडलों के लिए एनएल का केवल एक मान होना आम बात है।
  4. प्रत्येक व्यक्तिगत मॉडल एल के लिए, प्रतिस्थापन के साथ डी से डीएल सुविधाओं का चयन करके और मॉडल को प्रशिक्षित करके एक प्रशिक्षण सेट बनाएं।

अब, पहनावा मॉडल को एक अनदेखी बिंदु पर लागू करने के लिए, एल व्यक्तिगत मॉडल के आउटपुट को बहुमत से मतदान करके या पश्च संभावनाओं के संयोजन से संयोजित करें।

फुटनोट्स

  1. If each learner follows the same, deterministic, algorithm, the models produced are necessarily all the same.

संदर्भ

  1. Ho, Tin Kam (1998). "निर्णय वनों के निर्माण के लिए रैंडम सबस्पेस विधि" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 20 (8): 832–844. doi:10.1109/34.709601. Archived from the original (PDF) on 2019-05-14.
  2. Bryll, R. (2003). "Attribute bagging: improving accuracy of classifier ensembles by using random feature subsets". Pattern Recognition. 36 (6): 1291–1302. doi:10.1016/s0031-3203(02)00121-8.
  3. Kuncheva, Ludmila; et al. (2010). "fMRI वर्गीकरण के लिए रैंडम सबस्पेस एन्सेम्बल" (PDF). IEEE Transactions on Medical Imaging. 29 (2): 531–542. CiteSeerX 10.1.1.157.1178. doi:10.1109/TMI.2009.2037756.
  4. Bertoni, Alberto; Folgieri, Raffaella; Valentini, Giorgio (2005). "सपोर्ट वेक्टर मशीनों के रैंडम सबस्पेस एनसेम्बल के साथ जैव-आणविक कैंसर की भविष्यवाणी" (PDF). Neurocomputing. 63: 535–539. doi:10.1016/j.neucom.2004.07.007. hdl:2434/9370.
  5. Ho, Tin Kam (1995). यादृच्छिक निर्णय वन (PDF). Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995. pp. 278–282.
  6. Skurichina, Marina (2002). "रैखिक क्लासीफायर के लिए बैगिंग, बूस्टिंग और रैंडम सबस्पेस विधि". Pattern Analysis and Applications. 5 (2): 121–135. doi:10.1007/s100440200011.
  7. Tao, D. (2006). "छवि पुनर्प्राप्ति में वेक्टर मशीन-आधारित प्रासंगिक प्रतिक्रिया के समर्थन के लिए असममित बैगिंग और यादृच्छिक उप-स्थान" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 28 (7): 1088–99. doi:10.1109/tpami.2006.134. PMID 16792098.
  8. Ho, Tin Kam (1998). रैंडम सबस्पेस में निकटतम पड़ोसी. Joint IAPR International Workshops on Statistical Techniques in Pattern Recognition (SPR) and Structural and Syntactic Pattern Recognition (SSPR). Lecture Notes in Computer Science. Vol. 1451. pp. 640–648. doi:10.1007/BFb0033288. ISBN 978-3-540-64858-1.
  9. Tremblay, G. (2004). एक बहुउद्देश्यीय आनुवंशिक एल्गोरिथम का उपयोग करके यादृच्छिक उप-स्थानों में निकटतम पड़ोसी का अनुकूलन (PDF). 17th International Conference on Pattern Recognition. pp. 208–211. doi:10.1109/ICPR.2004.1334060. ISBN 978-0-7695-2128-2.
  10. Nanni, L. (2006). "ऑनलाइन हस्ताक्षर सत्यापन के लिए एक-श्रेणी के क्लासिफायर की प्रायोगिक तुलना". Neurocomputing. 69 (7): 869–873. doi:10.1016/j.neucom.2005.06.007.
  11. Cheplygina, Veronika; Tax, David M. J. (2011-06-15). Sansone, Carlo; Kittler, Josef; Roli, Fabio (eds.). मल्टीपल क्लासिफायर सिस्टम. Lecture Notes in Computer Science. Springer Berlin Heidelberg. pp. 96–105. doi:10.1007/978-3-642-21557-5_12. ISBN 9783642215568.
  12. Varadi, David (2013). "रैंडम सबस्पेस ऑप्टिमाइज़ेशन (RSO)". CSS Analytics.
  13. Gillen, Ben (2016). "परिसंपत्ति आवंटन के लिए सबसेट अनुकूलन". CaltechAUTHORS.
  14. Shen, Weiwei; Wang, Jun (2017), "Portfolio Selection via Subset Resampling", Proceedings of AAAI Conference on Artificial Intelligence (AAAI2017)
  15. Shen, Weiwei; Wang, Bin; Pu, Jian; Wang, Jun (2019), "The Kelly growth optimal portfolio with ensemble learning", Proceedings of AAAI Conference on Artificial Intelligence (AAAI2019)
  16. 16.0 16.1 Tian, Ye; Feng, Yang (2021). "RaSE: Random Subspace Ensemble Classification". Journal of Machine Learning Research. 22 (45): 1–93. ISSN 1533-7928.
  17. Tian, Ye; Feng, Yang (2021). "R Package "RaSEn": Random Subspace Ensemble Classification and Variable Screening". CRAN.