ओरेकल डेटा माइनिंग

From alpha
Revision as of 11:58, 1 March 2024 by Indicwiki (talk | contribs) (Created page with "Oracle डेटा माइनिंग (ODM) Oracle डेटाबेस एंटरप्राइज़ संस्करण का एक विकल्प है।...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Jump to navigation Jump to search

Oracle डेटा माइनिंग (ODM) Oracle डेटाबेस एंटरप्राइज़ संस्करण का एक विकल्प है। इसमें सांख्यिकीय वर्गीकरण, भविष्यवाणी, प्रतिगमन विश्लेषण, एसोसिएशन नियम सीखना, फीचर चयन, विसंगति का पता लगाना, फीचर निष्कर्षण और विशेष विश्लेषण के लिए कई डेटा खनन और डेटा विश्लेषण एल्गोरिदम शामिल हैं। यह डेटाबेस वातावरण के अंदर डेटा माइनिंग मॉडल के निर्माण, प्रबंधन और परिचालन तैनाती के लिए साधन प्रदान करता है।

Oracle Data Mining
डेवलपर(ओं)Oracle Corporation
Stable release
11gR2 / September, 2009
प्रकारdata mining and analytics
लाइसेंसproprietary
वेबसाइटOracle Data Mining

अवलोकन

Oracle Corporation ने अपने Oracle डेटाबेस संबंध का डेटाबेस उत्पाद के अंदर विभिन्न प्रकार के डेटा माइनिंग एल्गोरिदम लागू किए हैं। ये कार्यान्वयन सीधे Oracle डेटाबेस कर्नेल के साथ एकीकृत होते हैं और ओरेकल डेटाबेस तालिकाओं में संग्रहीत डेटा पर मूल रूप से संचालित होते हैं। यह स्टैंडअलोन माइनिंग/एनालिटिक सर्वर (कंप्यूटिंग) में डेटा के निष्कर्षण या स्थानांतरण (कंप्यूटिंग) की आवश्यकता को समाप्त करता है। रिलेशनल डेटाबेस प्लेटफ़ॉर्म का लाभ उठाया गया है[by whom?] मॉडलों को सुरक्षित रूप से प्रबंधित करने और बड़ी मात्रा में डेटा पर SQL सूचना पुनर्प्राप्ति को कुशलतापूर्वक निष्पादित करने के लिए। सिस्टम को कुछ सामान्य परिचालनों के आसपास व्यवस्थित किया गया है जो डेटा खनन कार्यों के लिए एक सामान्य एकीकृत इंटरफ़ेस प्रदान करता है। इन परिचालनों में डेटा परिभाषा भाषा, लागू, परीक्षण विधि और डेटा हेरफेर डेटा-माइनिंग मॉडल के कार्य शामिल हैं। मॉडल डेटाबेस ऑब्जेक्ट के रूप में बनाए और संग्रहीत किए जाते हैं, और उनका प्रबंधन डेटाबेस के भीतर किया जाता है - टेबल, व्यू, इंडेक्स और अन्य डेटाबेस ऑब्जेक्ट के समान।

डेटा माइनिंग में, अभी तक घटित न होने वाले व्यवहार का पूर्वानुमान या विवरण प्राप्त करने के लिए एक मॉडल का उपयोग करने की प्रक्रिया को स्कोरिंग कहा जाता है। पारंपरिक विश्लेषणात्मक कार्यक्षेत्रों में, नए डेटा को स्कोर करने के लिए विश्लेषणात्मक इंजन में निर्मित एक मॉडल को मिशन-महत्वपूर्ण प्रणाली में तैनात किया जाना होता है, या डेटा को संबंधपरक तालिकाओं से विश्लेषणात्मक कार्यक्षेत्र में ले जाया जाता है - अधिकांश कार्यक्षेत्र मालिकाना स्कोरिंग इंटरफेस प्रदान करते हैं। ODM सीधे डेटाबेस में संग्रहीत डेटा को स्कोर करने के लिए Oracle SQL फ़ंक्शंस की पेशकश करके मॉडल परिनियोजन को सरल बनाता है। इस तरह, उपयोगकर्ता/एप्लिकेशन-डेवलपर Oracle SQL की पूरी शक्ति का लाभ उठा सकता है - कई स्तरों पर परिणामों को पाइपलाइन और हेरफेर करने की क्षमता के संदर्भ में, और प्रदर्शन के लिए डेटा एक्सेस को समानांतर और विभाजित करने के संदर्भ में।

मॉडल कई माध्यमों में से किसी एक माध्यम से बनाए और प्रबंधित किए जा सकते हैं। ओरेकल डेटा माइनर एक ग्राफिकल यूज़र इंटरफ़ेस प्रदान करता है जो उपयोगकर्ता को मॉडल बनाने, परीक्षण करने और लागू करने की प्रक्रिया के माध्यम से कदम बढ़ाता है (उदाहरण के लिए सीआरआईएसपी-डीएम पद्धति की तर्ज पर)। एप्लिकेशन- और टूल-डेवलपर्स पीएल/एसक्यूएल या जावा (प्रोग्रामिंग भाषा) एपीआई का उपयोग करके पूर्वानुमानित और वर्णनात्मक खनन क्षमताओं को एम्बेड कर सकते हैं। व्यावसायिक विश्लेषक पूर्वानुमानित एनालिटिक्स के लिए ओरेकल स्प्रेडशीट ऐड-इन, एक समर्पित Microsoft Excel एडाप्टर इंटरफ़ेस का उपयोग करके भविष्य कहनेवाला विश्लेषण के साथ जल्दी से प्रयोग कर सकते हैं या उसकी शक्ति का प्रदर्शन कर सकते हैं। ODM सुप्रसिद्ध यंत्र अधिगम दृष्टिकोणों का विकल्प प्रदान करता है जैसे निर्णय वृक्ष सीखना, नाइव बेयस, समर्थन वेक्टर यंत्र ें, पूर्वानुमानित खनन के लिए सामान्यीकृत रैखिक मॉडल (जीएलएम), एसोसिएशन नियम, कश्मीर साधन और ऑर्थोगोनल विभाजन।[1][2] वर्णनात्मक खनन के लिए क्लस्टर विश्लेषण, और गैर-नकारात्मक मैट्रिक्स कारककरण। किसी समस्या के लिए इनपुट माइनिंग विशेषताओं के सापेक्ष महत्व को ग्रेड करने के लिए न्यूनतम विवरण लंबाई आधारित तकनीक भी प्रदान की गई है। अधिकांश Oracle डेटा माइनिंग फ़ंक्शंस इनपुट के रूप में टेक्स्ट (असंरचित डेटा) विशेषताओं को स्वीकार करके टेक्स्ट खनन की भी अनुमति देते हैं। उपयोगकर्ताओं को टेक्स्ट-माइनिंग विकल्पों को कॉन्फ़िगर करने की आवश्यकता नहीं है - Oracle डेटाबेस#Oracle Text|Database_options डेटाबेस विकल्प इसे पर्दे के पीछे से संभालता है।

इतिहास

Oracle डेटा माइनिंग को पहली बार 2002 में पेश किया गया था और इसके रिलीज़ को संबंधित Oracle डेटाबेस रिलीज़ के अनुसार नाम दिया गया है:

  • ओरेकल डेटा माइनिंग 9iR2 (9.2.0.1.0 - मई 2002)
  • ओरेकल डेटा माइनिंग 10gR1 (10.1.0.2.0 - फरवरी 2004)
  • ओरेकल डेटा माइनिंग 10gR2 (10.2.0.1.0 - जुलाई 2005)
  • ओरेकल डेटा माइनिंग 11जीआर1 (11.1 - सितंबर 2007)
  • ओरेकल डेटा माइनिंग 11gR2 (11.2 - सितंबर 2009)

ओरेकल डेटा माइनिंग, 1990 के दशक के मध्य में थिंकिंग मशीन्स कॉर्पोरेशन द्वारा विकसित डार्विन डेटा माइनिंग टूलसेट का एक तार्किक उत्तराधिकारी है और बाद में 1999 में थिंकिंग मशीन्स के अधिग्रहण के बाद ओरेकल द्वारा वितरित किया गया। हालाँकि, उत्पाद स्वयं एक पुनर्लेखन (प्रोग्रामिंग) | पूर्ण रीडिज़ाइन और ग्राउंड-अप से पुनर्लेखन है - जबकि डार्विन एक क्लासिक जीयूआई-आधारित विश्लेषणात्मक कार्यक्षेत्र था, ओडीएम ओरेकल डेटा माइनर जीयूआई के साथ, ओरेकल डेटाबेस में एकीकृत एक डेटा खनन विकास/परिनियोजन प्लेटफ़ॉर्म प्रदान करता है।

Oracle डेटा माइनर 11gR2 नए वर्कफ़्लो GUI का पूर्वावलोकन Oracle ओपन वर्ल्ड 2009 में किया गया था। एक अद्यतन Oracle डेटा माइनर GUI 2012 में जारी किया गया था। यह मुफ़्त है, और Oracle SQL डेवलपर 3.1 के एक्सटेंशन के रूप में उपलब्ध है।

कार्यक्षमता

रिलीज के समय 11gR1 Oracle डेटा माइनिंग में निम्नलिखित डेटा माइनिंग फ़ंक्शन शामिल हैं:

  • डेटा परिवर्तन और मॉडल विश्लेषण:
    • डेटा सैंपलिंग (सांख्यिकी), डेटा बिनिंग, विवेकीकरण, और अन्य डेटा परिवर्तन।
    • मॉडल अन्वेषण, मूल्यांकन और विश्लेषण।
  • सुविधा चयन (विशेषता महत्व)।
    • न्यूनतम विवरण लंबाई (एमडीएल)।
  • सांख्यिकीय वर्गीकरण.
  • असंगति का पता लगाये।
    • वन-क्लास सपोर्ट वेक्टर मशीन (एसवीएम)।
  • प्रतिगमन विश्लेषण
    • सपोर्ट वेक्टर मशीन (एसवीएम)।
    • एकाधिक प्रतिगमन के लिए सामान्यीकृत रैखिक मॉडल (जीएलएम)।
  • क्लस्टर विश्लेषण:
  • सुविधा निकालना।
    • गैर-नकारात्मक मैट्रिक्स गुणनखंडन (एनएमएफ)।
  • टेक्स्ट माइनिंग और डेटा माइनिंग#स्थानिक डेटा माइनिंग:
    • इनपुट डेटा के संयुक्त पाठ और गैर-पाठ कॉलम।
    • स्थानिक/गिस डेटा।

इनपुट स्रोत और डेटा तैयारी

अधिकांश Oracle डेटा माइनिंग फ़ंक्शंस इनपुट के रूप में एक रिलेशनल टेबल या व्यू को स्वीकार करते हैं। नेस्टेड कॉलम के उपयोग के माध्यम से फ्लैट डेटा को लेनदेन संबंधी डेटा के साथ जोड़ा जा सकता है, जिससे एक-से-कई रिश्तों (उदाहरण के लिए एक स्टार स्कीमा) से जुड़े डेटा के खनन को सक्षम किया जा सकता है। दिनांक और स्थानिक डेटा सहित, डेटा माइनिंग के लिए डेटा तैयार करते समय SQL की पूर्ण कार्यक्षमता का उपयोग किया जा सकता है।

Oracle डेटा माइनिंग संख्यात्मक, श्रेणीबद्ध और असंरचित (पाठ) विशेषताओं को अलग करता है। उत्पाद मॉडल निर्माण से पहले डेटा तैयार करने के चरणों के लिए उपयोगिताएँ भी प्रदान करता है जैसे बाहरी उपचार, विवेकीकरण, डेटाबेस सामान्यीकरण और बिनिंग (सामान्य बोलचाल में छँटाई )

ग्राफिकल यूजर इंटरफ़ेस: ओरेकल डेटा माइनर

उपयोगकर्ता Oracle डेटा माइनर के माध्यम से Oracle डेटा माइनिंग तक पहुंच सकते हैं, एक GUI क्लाइंट एप्लिकेशन जो डेटा माइनिंग फ़ंक्शंस और संरचित टेम्पलेट्स (जिसे माइनिंग गतिविधियां कहा जाता है) तक पहुंच प्रदान करता है जो स्वचालित रूप से संचालन के क्रम को निर्धारित करता है, आवश्यक डेटा परिवर्तन करता है और मॉडल पैरामीटर सेट करता है। उपयोगकर्ता इंटरफ़ेस डेटा-माइनिंग गतिविधियों से जुड़े जावा (प्रोग्रामिंग भाषा) और/या SQL कोड की स्वचालित पीढ़ी की भी अनुमति देता है। जावा कोड जेनरेटर Oracle JDeveloper का एक्सटेंशन है। एक स्वतंत्र इंटरफ़ेस भी मौजूद है: प्रिडिक्टिव एनालिटिक्स के लिए स्प्रेडशीट ऐड-इन जो माइक्रोसॉफ्ट एक्सेल से ओरेकल डेटा माइनिंग प्रिडिक्टिव एनालिटिक्स पीएल/एसक्यूएल पैकेज तक पहुंच सक्षम बनाता है।

Oracle डेटाबेस के संस्करण 11.2 से, Oracle डेटा माइनर Oracle SQL डेवलपर के साथ एकीकृत होता है।[3]


पीएल/एसक्यूएल और जावा इंटरफेस

Oracle डेटा माइनिंग मॉडल बनाने, नष्ट करने, वर्णन करने, लागू करने, परीक्षण करने, निर्यात करने और आयात करने के लिए एक मूल PL/SQL पैकेज (DBMS_DATA_MINING) प्रदान करता है। नीचे दिया गया कोड एक सांख्यिकीय वर्गीकरण मॉडल बनाने के लिए एक विशिष्ट कॉल को दर्शाता है:

BEGIN
  DBMS_DATA_MINING.CREATE_MODEL (
    model_name          => 'credit_risk_model', 
    function            => DBMS_DATA_MINING.classification, 
    data_table_name     => 'credit_card_data', 
    case_id_column_name => 'customer_id', 
    target_column_name  => 'credit_risk',
    settings_table_name => 'credit_risk_model_settings');
END;

जहां 'क्रेडिट_रिस्क_मॉडल' मॉडल नाम है, जिसे भविष्य के ग्राहकों के 'क्रेडिट_रिस्क' को वर्गीकृत करने के स्पष्ट उद्देश्य के लिए बनाया गया है, जो 'क्रेडिट_कार्ड_डेटा' तालिका में दिए गए प्रशिक्षण डेटा के आधार पर है, प्रत्येक मामले को एक अद्वितीय 'ग्राहक_आईडी' द्वारा अलग किया जाता है, बाकी के साथ 'क्रेडिट_रिस्क_मॉडल_सेटिंग्स' तालिका के माध्यम से निर्दिष्ट मॉडल पैरामीटर।

ओरेकल डेटा माइनिंग वेब और चल देना अनुप्रयोगों के साथ एकीकरण को सक्षम करने और प्लेटफार्मों पर पोर्टेबिलिटी की सुविधा के लिए डेटा माइनिंग (जेएसआर -73) के लिए जावा डेटा माइनिंग (जेडीएम) मानक के अनुरूप जावा (प्रोग्रामिंग भाषा) एपीआई का भी समर्थन करता है।

एसक्यूएल स्कोरिंग फ़ंक्शन

रिलीज़ 10gR2 के अनुसार, Oracle डेटा माइनिंग में डेटा माइनिंग मॉडल को स्कोर करने के लिए अंतर्निहित SQL फ़ंक्शंस शामिल हैं। ये एकल-पंक्ति फ़ंक्शन वर्गीकरण, प्रतिगमन, विसंगति का पता लगाने, क्लस्टरिंग और सुविधा निष्कर्षण का समर्थन करते हैं। नीचे दिया गया कोड सांख्यिकीय वर्गीकरण मॉडल के एक विशिष्ट उपयोग को दर्शाता है:

SELECT customer_name
  FROM credit_card_data
 WHERE PREDICTION (credit_risk_model USING *) = 'LOW' AND customer_value = 'HIGH';


पीएमएमएल

रिलीज़ 11gR2 (11.2.0.2) में, ODM कुछ डेटा माइनिंग मॉडल के लिए बाहरी रूप से निर्मित PMML के आयात का समर्थन करता है। पीएमएमएल डेटा माइनिंग मॉडल का प्रतिनिधित्व करने के लिए एक एक्सएमएल-आधारित मानक है।

भविष्य कहनेवाला विश्लेषण माइक्रोसॉफ्ट एक्सेल ऐड-इन

PL/SQL पैकेज DBMS_PREDICTIVE_ANALYTICS डेटा प्रीप्रोसेसिंग, मॉडल निर्माण और मूल्यांकन और नए डेटा की स्कोरिंग सहित डेटा माइनिंग प्रक्रिया को स्वचालित करता है। PREDICT ऑपरेशन का उपयोग लक्ष्य मान वर्गीकरण या प्रतिगमन की भविष्यवाणी करने के लिए किया जाता है, जबकि EXPLAIN लक्ष्य स्तंभ सुविधा चयन को समझाने में प्रभाव के क्रम में विशेषताओं को रैंक करता है। नया 11g फीचर PROFILE एक लक्ष्य विशेषता देते हुए ग्राहक खंडों और उनकी प्रोफाइलों का पता लगाता है। इन परिचालनों का उपयोग कार्रवाई योग्य परिणाम प्रदान करने वाली परिचालन पाइपलाइन के हिस्से के रूप में किया जा सकता है या अंतिम उपयोगकर्ताओं द्वारा व्याख्या के लिए प्रदर्शित किया जा सकता है।

संदर्भ और आगे पढ़ना

  • टी. एच. डेवनपोर्ट, एनालिटिक्स पर प्रतिस्पर्धा, हार्वर्ड बिजनेस रिव्यू , जनवरी 2006।
  • आई. बेन-गैल, आउटलायर डिटेक्शन, इन: मैमन ओ. और रॉकैच एल. (एड्स.) डेटा माइनिंग एंड नॉलेज डिस्कवरी हैंडबुक: चिकित्सकों और शोधकर्ताओं के लिए एक संपूर्ण मार्गदर्शिका, क्लूवर एकेडमिक पब्लिशर्स, 2005, ISBN 0-387-24435-2.
  • एम. एम. कैम्पोस, पी. जे. स्टेनगार्ड, और बी. एल. मिलेनोवा, डेटा-केंद्रित स्वचालित डेटा माइनिंग। मशीन लर्निंग और एप्लीकेशन पर चौथे अंतर्राष्ट्रीय सम्मेलन 2005 की कार्यवाही में, 15-17 दिसंबर 2005। पीपी8, ISBN 0-7695-2495-8
  • एम. एफ. हॉर्निक, एरिक मार्केड, और सुनील वेंकयाला। जावा डेटा माइनिंग: रणनीति, मानक और अभ्यास। मॉर्गन-कॉफ़मैन, 2006, ISBN 0-12-370452-9.
  • बी. एल. मिलेनोवा, जे. एस. यार्मस, और एम. एम. कैम्पोस। Oracle डेटाबेस 10g में SVM: सपोर्ट वेक्टर मशीनों को व्यापक रूप से अपनाने में आने वाली बाधाओं को दूर करना। बहुत बड़े डेटा बेस पर 31वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में (ट्रॉनहैम, नॉर्वे, 30 अगस्त - 2 सितंबर, 2005)। पीपी1152-1163, ISBN 1-59593-154-6.
  • बी. एल. मिलेनोवा और एम. एम. कैम्पोस। ओ-क्लस्टर: बड़े उच्च आयामी डेटा सेट की स्केलेबल क्लस्टरिंग। डेटा माइनिंग पर 2002 आईईईई अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में: आईसीडीएम 2002। पीपी290-297, ISBN 0-7695-1754-4.
  • पी. तामायो, सी. बर्जर, एम. एम. कैम्पोस, जे. एस. यार्मस, बी. एल. मिलेनोवा, ए. मोजेस, एम. टाफ्ट, एम. हॉर्निक, आर. कृष्णन, एस. थॉमस, एम. केली, डी. मुखिन, आर. हैबरस्ट्रोह, एस. स्टीफ़ेंस और जे. मायज़कोव्स्की। ओरेकल डेटा माइनिंग - डेटाबेस वातावरण में डेटा माइनिंग। डेटा माइनिंग और नॉलेज डिस्कवरी हैंडबुक के भाग VII में, मैमन, ओ.; रोकाच, एल. (सं.) 2005, पृष्ठ315-1329, ISBN 0-387-24435-2.
  • ब्रेंडन टियरनी, ओरेकल डेटा माइनर का उपयोग करके पूर्वानुमानित विश्लेषण: डेटा वैज्ञानिक, ओरेकल विश्लेषक, ओरेकल डेवलपर और डीबीए के लिए, ओरेकल प्रेस, मैकग्रा हिल, स्प्रिंग 2014।

यह भी देखें

  • Oracle LogMiner - सामान्य डेटा माइनिंग के विपरीत, Oracle डेटाबेस के आंतरिक लॉग से जानकारी निकालने का लक्ष्य रखता है

संदर्भ

  1. 1.0 1.1 US patent 7174344, Campos, Marcos M. & Milenova, Boriana L., "Orthogonal partitioning clustering", issued 2007-02-06, assigned to Oracle International Corporation 
  2. 2.0 2.1 Boriana L. Milenova and Marcos M. Campos (2002); O-Cluster: Scalable Clustering of Large High Dimensional Data Sets, ICDM '02 Proceedings of the 2002 IEEE International Conference on Data Mining, pages 290-297, ISBN 0-7695-1754-4.
  3. "Oracle Data Miner". Oracle technology Network. Oracle Corporation. 2014. Retrieved 2014-07-17. The Oracle Data Miner is an Oracle SQL Developer extension that enables data analysts to work directly with data inside the database, explore the data graphically, build and evaluate multiple data mining models, apply Oracle Data Mining models to new data and deploy Oracle Data Mining's predictions and insights throughout the enterprise. [...] Oracle Data Miner is comprised of three components: Oracle Database 12c or Oracle Database 11g Release 2 SQL Developer (client) which bundles the Oracle Data Miner work flow GUI Data Miner Repository - installed in the Oracle Database


बाहरी संबंध