डेटा लेक

डेटा लेक एक सिस्टम या डेटा भंडार है जो अपने प्राकृतिक/कच्चे प्रारूप में संग्रहीत होता है,^[1] आमतौर पर बाइनरी बड़ी वस्तुओं या फ़ाइलों पर आपत्ति करते हैं। डेटा लेक आमतौर पर डेटा का एक एकल भंडार होता है जिसमें स्रोत सिस्टम डेटा, सेंसर डेटा, सामाजिक डेटा आदि की कच्ची प्रतियां शामिल होती हैं।^[2] और परिवर्तित डेटा का उपयोग डेटा रिपोर्टिंग, डेटा विज़ुअलाइज़ेशन, डेटा विश्लेषण और यंत्र अधिगम जैसे कार्यों के लिए किया जाता है। डेटा लेक में संबंध का डेटाबेस (पंक्तियाँ और कॉलम), अर्ध-संरचित डेटा (अल्पविराम से अलग किए गए मान, लॉग, एक्सएमएल, जेएसओएन), असंरचित डेटा (ईमेल, दस्तावेज़, पीडीएफ़ ) और बाइनरी डेटा (छवियां, ऑडियो डेटा) से संरचित डेटा शामिल हो सकता है। , वीडियो)।^[3] एक डेटा लेक को परिसर में (किसी संगठन के डेटा केंद्रों के भीतर) या क्लाउड में (अमेज़ॅन (कंपनी), माइक्रोसॉफ्ट, या Google जैसे विक्रेताओं की क्लाउड सेवाओं का उपयोग करके) स्थापित किया जा सकता है।

पृष्ठभूमि

पेंटाहो के तत्कालीन मुख्य प्रौद्योगिकी अधिकारी जेम्स डिक्सन ने 2011 तक यह शब्द गढ़ा था^[4] इसकी तुलना डेटा मार्ट से करें, जो कच्चे डेटा से प्राप्त दिलचस्प विशेषताओं का एक छोटा भंडार है।^[5] डेटा लेक को बढ़ावा देने में, उन्होंने तर्क दिया कि डेटा मार्ट में कई अंतर्निहित समस्याएं हैं, जैसे सूचना साइलोइंग। प्राइसवॉटरहाउसकूपर्स (पीडब्ल्यूसी) ने कहा कि डेटा झीलें डेटा साइलो को समाप्त कर सकती हैं।^[6] डेटा झीलों पर अपने अध्ययन में उन्होंने नोट किया कि उद्यम एनालिटिक्स के लिए डेटा को एकल, Hadoop-आधारित रिपॉजिटरी में निकालना और रखना शुरू कर रहे थे।

उदाहरण

कई कंपनियाँ क्लाउड स्टोरेज सेवाओं जैसे Google गूगल क्लाउड स्टोरेज अमेज़ॅन S3 या एक वितरित फ़ाइल सिस्टम जैसे Apache Hadoop वितरित फ़ाइल सिस्टम (HDFS) का उपयोग करती हैं।^[7] डेटा लेक की अवधारणा में धीरे-धीरे शैक्षणिक रुचि बढ़ रही है। उदाहरण के लिए, कार्डिफ़ विश्वविद्यालय में पर्सनल डेटालेक एक नए प्रकार का डेटा लेक है जिसका उद्देश्य व्यक्तिगत डेटा को एकत्रित करने, व्यवस्थित करने और साझा करने का एक बिंदु प्रदान करके व्यक्तिगत उपयोगकर्ताओं के बड़े डेटा का प्रबंधन करना है।^[8] पहले के डेटा लेक (Hadoop 1.0) में बैच-ओरिएंटेड प्रोसेसिंग (मानचित्र छोटा करना ) के साथ सीमित क्षमताएं थीं और यह इसके साथ जुड़ा एकमात्र प्रोसेसिंग प्रतिमान था। डेटा लेक के साथ इंटरैक्ट करने का मतलब है कि किसी को मैप रिड्यूस और अपाचे सुअर , अपाचे स्पार्क और अपाचे हाइव (जो स्वयं मूल रूप से बैच-उन्मुख थे) जैसे उच्च-स्तरीय टूल के साथ जावा में विशेषज्ञता होनी चाहिए।

आलोचना

खराब ढंग से प्रबंधित डेटा झीलों को दिखावटी तौर पर डेटा दलदल कहा गया है।^[9] जून 2015 में, डेविड नीडल ने तथाकथित डेटा लेक को बड़े डेटा को प्रबंधित करने के अधिक विवादास्पद तरीकों में से एक बताया।^[10] प्राइसवाटरहाउसकूपर्स ने अपने शोध में इस बात पर भी ध्यान दिया कि सभी डेटा लेक पहल सफल नहीं हैं। वे कैम्ब्रिज शब्दार्थ के सीटीओ शॉन मार्टिन को उद्धृत करते हैं:

We see customers creating big data graveyards, dumping everything into Hadoop distributed file system (HDFS) and hoping to do something with it down the road. But then they just lose track of what’s there. The main challenge is not creating a data lake, but taking advantage of the opportunities it presents.^[6]

वे उन कंपनियों का वर्णन करते हैं जो सफल डेटा लेक का निर्माण करती हैं, क्योंकि वे धीरे-धीरे अपनी लेक को परिपक्व कर रहे हैं क्योंकि वे यह पता लगाते हैं कि संगठन के लिए कौन सा डेटा और मेटा डेटा महत्वपूर्ण हैं।

एक और आलोचना यह है कि डेटा लेक शब्द उपयोगी नहीं है क्योंकि इसका उपयोग कई अलग-अलग तरीकों से किया जाता है। ^[11] इसका उपयोग उदाहरण के लिए किया जा सकता है: कोई भी उपकरण या डेटा प्रबंधन प्रथाएं जो डेटा गोदाम नहीं हैं; कार्यान्वयन के लिए एक विशेष तकनीक; एक कच्चा डेटा भंडार; निष्कर्षण, परिवर्तन, लोड ऑफलोड के लिए एक केंद्र; या स्व-सेवा विश्लेषण के लिए एक केंद्रीय केंद्र।

हालाँकि डेटा झीलों की आलोचनाएँ उचित हैं, कई मामलों में वे अन्य डेटा परियोजनाओं पर भी लागू होती हैं।^[12] उदाहरण के लिए, "डेटा वेयरहाउस" की परिभाषा भी परिवर्तनीय है, और सभी डेटा वेयरहाउस प्रयास सफल नहीं हुए हैं। विभिन्न आलोचनाओं के जवाब में, मैकिन्से ने कहा^[13] डेटा लेक को उद्यम के भीतर व्यावसायिक मूल्य प्रदान करने के लिए एक सेवा मॉडल के रूप में देखा जाना चाहिए, न कि प्रौद्योगिकी परिणाम के रूप में।

एक्सटेंशन

डेटा लेकहाउस डेटा लेक और डेटा वेयरहाउस का एक प्रस्तावित हाइब्रिड दृष्टिकोण है,^[14] और डेटा लेक के साथ कुछ चुनौतियों को हल करने का प्रयास करता है।^[15]^{[clarification needed]} इसे डेटा लेक आर्किटेक्चर से शुरू करने [और इसमें डेटा वेयरहाउस क्षमताओं को जोड़ने का प्रयास] के रूप में वर्णित किया गया है।^[16] ओरेकल के अनुसार, यह डेटा लेक से असंरचित डेटा के लचीले भंडारण और डेटा वेयरहाउस से प्रबंधन सुविधाओं और उपकरणों को जोड़ता है।^[17]

यह भी देखें

एज़्योर डेटा लेक

संदर्भ

↑ "बड़ी डेटा गुणवत्ता का बढ़ता महत्व". The Data Roundtable. 21 November 2016. Retrieved 1 June 2020.
↑ "What is a data lake?". aws.amazon.com. Retrieved 12 October 2020.
↑ Campbell, Chris. "डेटा वेयरहाउस और डेटा लेक्स के बीच शीर्ष पांच अंतर". Blue-Granite.com. Retrieved 19 May 2017.
↑ Woods, Dan (21 July 2011). "बड़े डेटा के लिए एक बड़े आर्किटेक्चर की आवश्यकता होती है". Forbes.
↑ Dixon, James (14 October 2010). "पेंटाहो, हडूप और डेटा लेक्स". James Dixon’s Blog. James Dixon. Retrieved 7 November 2015. If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.
↑ ^6.0 ^6.1 Stein, Brian; Morrison, Alan (2014). डेटा झीलें और निर्बाध डेटा का वादा (PDF) (Report). Technology Forecast: Rethinking integration. PricewaterhouseCoopers.
↑ Tuulos, Ville (22 September 2015). "डॉकर, लुइगी और इलास्टिक स्पॉट इंस्टेंसेस के साथ पेटाबाइट-स्केल डेटा पाइपलाइन". NextRoll.
↑ Walker, Coral; Alrehamy, Hassan (2015). "Personal Data Lake with Data Gravity Pull". 2015 IEEE Fifth International Conference on Big Data and Cloud Computing. pp. 160–167. doi:10.1109/BDCloud.2015.62. ISBN 978-1-4673-7183-4. S2CID 18024161.
↑ Olavsrud, Thor (8 June 2017). "3 keys to keep your data lake from becoming a data swamp". CIO. Retrieved 4 January 2021.
↑ Needle, David (10 June 2015). "Hadoop Summit: Wrangling Big Data Requires Novel Tools, Techniques". Enterprise Apps. eWeek. Retrieved 1 November 2015. Walter Maguire, chief field technologist at HP's Big Data Business Unit, discussed one of the more controversial ways to manage big data, so-called data lakes.^{[permanent dead link]}
↑ "Are Data Lakes Fake News?". Sonra. 8 August 2017. Retrieved 10 August 2017.
↑ Belov, Vladimir; Kosenkov, Alexander N.; Nikulchev, Evgeny (2021). "डेटा लेक के भीतर डेटा मार्ट विकास के लिए डेटा संग्रहण प्रारूपों का प्रायोगिक लक्षण अध्ययन". Applied Sciences. 11 (18): 8651. doi:10.3390/app11188651.
↑ "डेटा झीलों में कूदने का एक बेहतर तरीका". McKinsey. 1 August 2017.
↑ What is a Data Lakehouse?
↑ What Is A Data Lakehouse? A Super-Simple Explanation For Anyone
↑ What is a Data Lakehouse? | Snowflake
↑ What is a Data Lakehouse? | Oracle

[1] "बड़ी डेटा गुणवत्ता का बढ़ता महत्व". The Data Roundtable. 21 November 2016. Retrieved 1 June 2020.

[2] "What is a data lake?". aws.amazon.com. Retrieved 12 October 2020.

[3] Campbell, Chris. "डेटा वेयरहाउस और डेटा लेक्स के बीच शीर्ष पांच अंतर". Blue-Granite.com. Retrieved 19 May 2017.

[woods2011-4] Woods, Dan (21 July 2011). "बड़े डेटा के लिए एक बड़े आर्किटेक्चर की आवश्यकता होती है". Forbes.

[dixon2010-5] Dixon, James (14 October 2010). "पेंटाहो, हडूप और डेटा लेक्स". James Dixon’s Blog. James Dixon. Retrieved 7 November 2015. If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.

[stein2014-6] 6.0 ^6.1 Stein, Brian; Morrison, Alan (2014). डेटा झीलें और निर्बाध डेटा का वादा (PDF) (Report). Technology Forecast: Rethinking integration. PricewaterhouseCoopers.

[tuulos2015-7] Tuulos, Ville (22 September 2015). "डॉकर, लुइगी और इलास्टिक स्पॉट इंस्टेंसेस के साथ पेटाबाइट-स्केल डेटा पाइपलाइन". NextRoll.

[8] Walker, Coral; Alrehamy, Hassan (2015). "Personal Data Lake with Data Gravity Pull". 2015 IEEE Fifth International Conference on Big Data and Cloud Computing. pp. 160–167. doi:10.1109/BDCloud.2015.62. ISBN 978-1-4673-7183-4. S2CID 18024161.

[9] Olavsrud, Thor (8 June 2017). "3 keys to keep your data lake from becoming a data swamp". CIO. Retrieved 4 January 2021.

[needle2015-10] Needle, David (10 June 2015). "Hadoop Summit: Wrangling Big Data Requires Novel Tools, Techniques". Enterprise Apps. eWeek. Retrieved 1 November 2015. Walter Maguire, chief field technologist at HP's Big Data Business Unit, discussed one of the more controversial ways to manage big data, so-called data lakes.^{[permanent dead link]}

[11] "Are Data Lakes Fake News?". Sonra. 8 August 2017. Retrieved 10 August 2017.

[12] Belov, Vladimir; Kosenkov, Alexander N.; Nikulchev, Evgeny (2021). "डेटा लेक के भीतर डेटा मार्ट विकास के लिए डेटा संग्रहण प्रारूपों का प्रायोगिक लक्षण अध्ययन". Applied Sciences. 11 (18): 8651. doi:10.3390/app11188651.

[13] "डेटा झीलों में कूदने का एक बेहतर तरीका". McKinsey. 1 August 2017.

[14] What is a Data Lakehouse?

[15] What Is A Data Lakehouse? A Super-Simple Explanation For Anyone

[16] What is a Data Lakehouse? | Snowflake

[17] What is a Data Lakehouse? | Oracle

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]