अपाचे Hadoop

Apache Hadoop
मूल लेखक	Doug Cutting, Mike Cafarella
डेवलपर(ओं)	Apache Software Foundation
आरंभिक रिलीज	April 1, 2006; 18 years ago
Stable release
2.10.x	2.10.2 / May 31, 2022; 23 months ago
3.2.x	3.2.4 / July 22, 2022; 21 months ago
3.3.x	3.3.4 / August 8, 2022; 21 months ago
रिपॉजिटरी	Hadoop Repository
इसमें लिखा हुआ	Java
ऑपरेटिंग सिस्टम	Cross-platform
प्रकार	Distributed file system
लाइसेंस	Apache License 2.0

अपाचे Hadoop ( /həˈduːp/) खुला स्रोत सॉफ्टवेयर | ओपन-सोर्स सॉफ़्टवेयर उपयोगिताओं का एक संग्रह है जो भारी मात्रा में डेटा और गणना से जुड़ी समस्याओं को हल करने के लिए कई कंप्यूटरों के नेटवर्क का उपयोग करने की सुविधा प्रदान करता है। यह MapReduce प्रोग्रामिंग मॉडल का उपयोग करके संकुलित फ़ाइल सिस्टम और बड़े डेटा के प्रसंस्करण के लिए एक सॉफ्टवेयर ढांचा प्रदान करता है। Hadoop को मूल रूप से लोहे की उपयोगी वस्तुएं से निर्मित कंप्यूटर क्लस्टर के लिए डिज़ाइन किया गया था, जो अभी भी आम उपयोग है।^[3] तब से इसका उपयोग उच्च-स्तरीय हार्डवेयर के समूहों पर भी होने लगा है।^[4]^[5] Hadoop में सभी मॉड्यूल इस मूलभूत धारणा के साथ डिज़ाइन किए गए हैं कि हार्डवेयर विफलताएं सामान्य घटनाएं हैं और इन्हें फ़्रेमवर्क द्वारा स्वचालित रूप से नियंत्रित किया जाना चाहिए।^[6] Apache Hadoop के मूल में एक स्टोरेज भाग होता है, जिसे Hadoop डिस्ट्रिब्यूटेड फ़ाइल सिस्टम (HDFS) के रूप में जाना जाता है, और एक प्रोसेसिंग भाग जो एक MapReduce प्रोग्रामिंग मॉडल है। Hadoop फ़ाइलों को बड़े ब्लॉकों में विभाजित करता है और उन्हें क्लस्टर में नोड्स में वितरित करता है। इसके बाद यह डेटा को समानांतर में संसाधित करने के लिए JAR (फ़ाइल प्रारूप) को नोड्स में स्थानांतरित करता है। यह दृष्टिकोण डेटा स्थानीयता का लाभ उठाता है,^[7] जहां नोड्स उस डेटा में हेरफेर करते हैं जिस तक उनकी पहुंच होती है। यह डेटासेट को अधिक पारंपरिक सुपरकंप्यूटर वास्तुकला की तुलना में तेजी से और अधिक कुशलता से वितरित प्रसंस्करण की अनुमति देता है जो एक समानांतर फ़ाइल सिस्टम पर निर्भर करता है जहां गणना और डेटा को उच्च गति नेटवर्किंग के माध्यम से वितरित किया जाता है।^[8]^[9] बेस अपाचे Hadoop फ्रेमवर्क निम्नलिखित मॉड्यूल से बना है:

Hadoop Common - इसमें अन्य Hadoop मॉड्यूल के लिए आवश्यक लाइब्रेरी और उपयोगिताएँ शामिल हैं;
Hadoop डिस्ट्रिब्यूटेड फ़ाइल सिस्टम (HDFS) - एक वितरित फ़ाइल-सिस्टम जो कमोडिटी मशीनों पर डेटा संग्रहीत करता है, जो क्लस्टर में बहुत उच्च समग्र बैंडविड्थ प्रदान करता है;
Hadoop YARN - (2012 में प्रस्तुत) एक ऐसा प्लेटफ़ॉर्म है जो क्लस्टर में कंप्यूटिंग संसाधनों के प्रबंधन और उपयोगकर्ताओं के अनुप्रयोगों को शेड्यूल करने के लिए उनका उपयोग करने के लिए जिम्मेदार है;^[10]^[11]
Hadoop MapReduce - बड़े पैमाने पर डेटा प्रोसेसिंग के लिए MapReduce प्रोग्रामिंग मॉडल का कार्यान्वयन।
Hadoop ओजोन - (2020 में पेश किया गया) Hadoop के लिए एक ऑब्जेक्ट स्टोर

Hadoop शब्द का प्रयोग अक्सर आधार मॉड्यूल और उप-मॉड्यूल और पारिस्थितिकी तंत्र दोनों के लिए किया जाता है।^[12] या अतिरिक्त सॉफ़्टवेयर पैकेजों का संग्रह जिन्हें Hadoop के शीर्ष पर या उसके साथ स्थापित किया जा सकता है, जैसे कि सुअर (प्रोग्रामिंग उपकरण) , अपाचे हाइव, अपाचे HBase, अपाचे फीनिक्स, अपाचे स्पार्क, अपाचे ज़ूकीपर, अपाचे इम्पाला, अपाचे फ्लूम, अपाचे स्कूप, अपाचे ओजी और अपाचे तूफान ।^[13] Apache Hadoop के MapReduce और HDFS घटक MapReduce और Google फ़ाइल सिस्टम पर Google दस्तावेज़ों से प्रेरित थे।^[14] Hadoop फ्रेमवर्क स्वयं ज्यादातर जावा (प्रोग्रामिंग भाषा) में लिखा गया है, जिसमें C (प्रोग्रामिंग भाषा) में कुछ मूल कोड और कमांड लाइन इंटरफेस उपयोगिताओं को शैल स्क्रिप्ट के रूप में लिखा गया है। हालाँकि MapReduce Java कोड आम है, मैप को लागू करने और उपयोगकर्ता के प्रोग्राम के कुछ हिस्सों को कम करने के लिए Hadoop स्ट्रीमिंग के साथ किसी भी प्रोग्रामिंग भाषा का उपयोग किया जा सकता है।^[15] Hadoop पारिस्थितिकी तंत्र की अन्य परियोजनाएँ समृद्ध उपयोगकर्ता इंटरफ़ेस को उजागर करती हैं।

इतिहास

इसके सह-संस्थापकों, डौग काटना और माइक कैफ़रेला के अनुसार, Hadoop की उत्पत्ति Google फ़ाइल सिस्टम पेपर थी जो अक्टूबर 2003 में प्रकाशित हुई थी।^[16]^[17] इस पेपर ने Google से एक और पेपर तैयार किया – MapReduce: बड़े समूहों पर सरलीकृत डेटा प्रोसेसिंग।^[18] अपाचे नच परियोजना पर विकास शुरू हुआ, लेकिन जनवरी 2006 में इसे नए Hadoop उपप्रोजेक्ट में स्थानांतरित कर दिया गया।^[19] डौग कटिंग, जो याहू में काम कर रहे थे! उस समय, उन्होंने इसका नाम अपने बेटे के खिलौना हाथी के नाम पर रखा।^[20] नच से निकाले गए प्रारंभिक कोड में HDFS के लिए कोड की लगभग 5,000 लाइनें और MapReduce के लिए कोड की लगभग 6,000 लाइनें शामिल थीं।

मार्च 2006 में, ओवेन ओ'मैली Hadoop प्रोजेक्ट में शामिल होने वाले पहले कमिटर थे;^[21] Hadoop 0.1.0 अप्रैल 2006 में जारी किया गया था।^[22] परियोजना में किए जा रहे योगदान के माध्यम से इसका विकास जारी है।^[23] Hadoop डिस्ट्रिब्यूटेड फ़ाइल सिस्टम के लिए सबसे पहला डिज़ाइन दस्तावेज़ 2007 में ध्रुबा बोरठाकुर द्वारा लिखा गया था।^[24]

वास्तुकला

Hadoop में Hadoop Common पैकेज शामिल है, जो फ़ाइल सिस्टम और ऑपरेटिंग सिस्टम स्तर के एब्स्ट्रैक्शन, एक MapReduce इंजन (या तो MapReduce/MR1 या YARN/MR2) प्रदान करता है।^[25] और #Hadoop वितरित फ़ाइल सिस्टम (HDFS)। Hadoop Common पैकेज में Hadoop को प्रारंभ करने के लिए आवश्यक JAR (फ़ाइल प्रारूप) | जावा आर्काइव (JAR) फ़ाइलें और स्क्रिप्ट शामिल हैं।

कार्य के प्रभावी शेड्यूलिंग के लिए, प्रत्येक Hadoop-संगत फ़ाइल सिस्टम को स्थान जागरूकता प्रदान करनी चाहिए, जो रैक का नाम है, विशेष रूप से नेटवर्क स्विच जहां एक वर्कर नोड है। Hadoop एप्लिकेशन इस जानकारी का उपयोग उस नोड पर कोड निष्पादित करने के लिए कर सकते हैं जहां डेटा है, और, ऐसा न होने पर, बैकबोन ट्रैफ़िक को कम करने के लिए उसी रैक/स्विच पर कर सकते हैं। कई रैक में डेटा अतिरेक के लिए डेटा की प्रतिलिपि बनाते समय एचडीएफएस इस पद्धति का उपयोग करता है। यह दृष्टिकोण रैक पावर आउटेज या स्विच विफलता के प्रभाव को कम करता है; यदि इनमें से कोई भी हार्डवेयर विफलता होती है, तो डेटा उपलब्ध रहेगा।^[26]

एक मल्टी-नोड Hadoop क्लस्टर

एक छोटे Hadoop क्लस्टर में एक एकल मास्टर और एकाधिक वर्कर नोड शामिल होते हैं। मास्टर नोड में जॉब ट्रैकर, टास्क ट्रैकर, नेमनोड और डेटानोड शामिल हैं। एक स्लेव या वर्कर नोड डेटानोड और टास्कट्रैकर दोनों के रूप में कार्य करता है, हालांकि केवल-डेटा और केवल-गणना वाले वर्कर नोड्स होना संभव है। इनका उपयोग आम तौर पर केवल गैरमानक अनुप्रयोगों में किया जाता है।^[27]

Hadoop को जावा क्रम पर्यावरण (JRE) 1.6 या उच्चतर की आवश्यकता होती है। मानक स्टार्टअप और शटडाउन स्क्रिप्ट के लिए आवश्यक है कि क्लस्टर में नोड्स के बीच सुरक्षित खोल (एसएसएच) स्थापित किया जाए।^[28]

एक बड़े क्लस्टर में, HDFS नोड्स को फ़ाइल सिस्टम इंडेक्स को होस्ट करने के लिए एक समर्पित NameNode सर्वर के माध्यम से प्रबंधित किया जाता है, और एक द्वितीयक NameNode जो NameNode की मेमोरी संरचनाओं के स्नैपशॉट उत्पन्न कर सकता है, जिससे फ़ाइल-सिस्टम भ्रष्टाचार और डेटा की हानि को रोका जा सकता है। इसी तरह, एक स्टैंडअलोन जॉबट्रैकर सर्वर सभी नोड्स में जॉब शेड्यूलिंग का प्रबंधन कर सकता है। जब Hadoop MapReduce का उपयोग वैकल्पिक फ़ाइल सिस्टम के साथ किया जाता है, तो NameNode, सेकेंडरी NameNode और HDFS के DataNode आर्किटेक्चर को फ़ाइल-सिस्टम-विशिष्ट समकक्षों द्वारा प्रतिस्थापित किया जाता है।

फ़ाइल सिस्टम

Hadoop वितरित फ़ाइल सिस्टम

Hadoop वितरित फ़ाइल सिस्टम (HDFS) Hadoop ढांचे के लिए जावा में लिखा गया एक वितरित, स्केलेबल और पोर्टेबल वितरित फ़ाइल सिस्टम है। कुछ लोग इसके POSIX अनुपालन की कमी के कारण इसे एक वितरित डेटा स्टोर मानते हैं,^[29] लेकिन यह शेल कमांड और जावा एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस (एपीआई) विधि (कंप्यूटर प्रोग्रामिंग) प्रदान करता है जो अन्य फ़ाइल सिस्टम के समान है।^[30] Hadoop इंस्टेंस को HDFS और MapReduce में विभाजित किया गया है। HDFS का उपयोग डेटा को संग्रहीत करने के लिए किया जाता है और MapReduce का उपयोग डेटा को संसाधित करने के लिए किया जाता है। एचडीएफएस की पांच सेवाएं इस प्रकार हैं:

नाम नोड
द्वितीयक नाम नोड
जॉब ट्रैकर
डेटा नोड
कार्य ट्रैकर

शीर्ष तीन मास्टर सेवाएँ/डेमन्स/नोड्स हैं और नीचे की दो स्लेव सेवाएँ हैं। मास्टर सेवाएँ एक दूसरे के साथ संवाद कर सकती हैं और उसी तरह स्लेव सेवाएँ एक दूसरे के साथ संवाद कर सकती हैं। नाम नोड एक मास्टर नोड है और डेटा नोड इसका संबंधित स्लेव नोड है और एक दूसरे से बात कर सकते हैं।

नाम नोड: एचडीएफएस में केवल एक नाम नोड होता है जिसे मास्टर नोड कहा जाता है। मास्टर नोड फ़ाइलों को ट्रैक कर सकता है, फ़ाइल सिस्टम को प्रबंधित कर सकता है और इसके भीतर सभी संग्रहीत डेटा का मेटा डेटा होता है। विशेष रूप से, नाम नोड में ब्लॉकों की संख्या, डेटा नोड के स्थान जहां डेटा संग्रहीत है, जहां प्रतिकृतियां संग्रहीत की जाती हैं, और अन्य विवरण शामिल हैं। नाम नोड का क्लाइंट से सीधा संपर्क होता है।

डेटा नोड: एक डेटा नोड इसमें डेटा को ब्लॉक के रूप में संग्रहीत करता है। इसे स्लेव नोड के रूप में भी जाना जाता है और यह वास्तविक डेटा को एचडीएफएस में संग्रहीत करता है जो क्लाइंट को पढ़ने और लिखने के लिए जिम्मेदार है। ये गुलाम राक्षस हैं. प्रत्येक डेटा नोड हर 3 सेकंड में नाम नोड को एक हार्टबीट संदेश भेजता है और बताता है कि वह जीवित है। इस तरह जब नेम नोड को 2 मिनट तक डेटा नोड से दिल की धड़कन नहीं मिलती है, तो यह उस डेटा नोड को मृत मान लेगा और किसी अन्य डेटा नोड पर ब्लॉक प्रतिकृति की प्रक्रिया शुरू कर देगा।

द्वितीयक नाम नोड: यह केवल फ़ाइल सिस्टम मेटाडेटा की चौकियों का ध्यान रखने के लिए है जो नाम नोड में है। इसे चेकपॉइंट नोड के रूप में भी जाना जाता है। यह नाम नोड के लिए सहायक नोड है। द्वितीयक नाम नोड, नाम नोड को fsimage और editlog फ़ाइल बनाने और भेजने का निर्देश देता है, जिस पर द्वितीयक नाम नोड द्वारा कॉम्पैक्ट fsimage फ़ाइल बनाई जाती है।^[31] जॉब ट्रैकर: जॉब ट्रैकर क्लाइंट से मैप रिड्यूस निष्पादन के लिए अनुरोध प्राप्त करता है। प्रोसेसिंग में उपयोग किए जाने वाले डेटा के स्थान के बारे में जानने के लिए जॉब ट्रैकर नेम नोड से बात करता है। नाम नोड आवश्यक प्रसंस्करण डेटा के मेटाडेटा के साथ प्रतिक्रिया करता है।

टास्क ट्रैकर: यह जॉब ट्रैकर के लिए स्लेव नोड है और यह जॉब ट्रैकर से कार्य लेगा। यह जॉब ट्रैकर से कोड भी प्राप्त करता है। टास्क ट्रैकर कोड लेगा और फ़ाइल पर लागू करेगा। उस कोड को फ़ाइल पर लागू करने की प्रक्रिया को मैपर के रूप में जाना जाता है।^[32] Hadoop क्लस्टर में नाममात्र रूप से एक एकल नामेनोड और डेटानोड का एक क्लस्टर होता है, हालांकि इसकी गंभीरता के कारण नामेनोड के लिए अतिरेक (इंजीनियरिंग) विकल्प उपलब्ध हैं। प्रत्येक डेटानोड एचडीएफएस के लिए विशिष्ट ब्लॉक प्रोटोकॉल का उपयोग करके नेटवर्क पर डेटा के ब्लॉक प्रदान करता है। फ़ाइल सिस्टम संचार के लिए टीसीपी/आईपी इंटरनेट सॉकेट का उपयोग करता है। ग्राहक एक दूसरे के साथ संचार करने के लिए दूरस्थ प्रक्रिया कॉल (आरपीसी) का उपयोग करते हैं।

एचडीएफएस बड़ी फ़ाइलों को संग्रहीत करता है (आमतौर पर गीगाबाइट से टेराबाइट्स की सीमा में)।^[33]) कई मशीनों में। यह एकाधिक होस्ट में डेटा प्रतिकृति (कंप्यूटर विज्ञान) द्वारा विश्वसनीयता प्राप्त करता है, और इसलिए सैद्धांतिक रूप से होस्ट पर RAID | स्वतंत्र डिस्क (RAID) भंडारण की अनावश्यक सरणी की आवश्यकता नहीं होती है (लेकिन इनपुट-आउटपुट (I/O) प्रदर्शन को बढ़ाने के लिए कुछ RAID कॉन्फ़िगरेशन अभी भी उपयोगी हैं)। डिफ़ॉल्ट प्रतिकृति मान, 3 के साथ, डेटा तीन नोड्स पर संग्रहीत किया जाता है: दो एक ही रैक पर, और एक अलग रैक पर। डेटा नोड्स डेटा को पुनर्संतुलित करने, प्रतियों को इधर-उधर ले जाने और डेटा की प्रतिकृति को उच्च रखने के लिए एक-दूसरे से बात कर सकते हैं। HDFS पूरी तरह से POSIX-अनुपालक नहीं है, क्योंकि POSIX फ़ाइल-सिस्टम की आवश्यकताएँ Hadoop एप्लिकेशन के लक्ष्य लक्ष्यों से भिन्न होती हैं। पूरी तरह से POSIX-अनुपालक फ़ाइल-सिस्टम न होने का नतीजा डेटा THROUGHPUT के लिए प्रदर्शन में वृद्धि और एपेंड जैसे गैर-POSIX संचालन के लिए समर्थन है।^[34] मई 2012 में, एचडीएफएस में उच्च-उपलब्धता क्षमताएं जोड़ी गईं,^[35] NameNode नामक मुख्य मेटाडेटा सर्वर को बैकअप पर मैन्युअल रूप से विफल होने देना। परियोजना ने स्वचालित विफलता-ओवर विकसित करना भी शुरू कर दिया है।

एचडीएफएस फ़ाइल सिस्टम में एक तथाकथित द्वितीयक नामेनोड शामिल है, एक भ्रामक शब्द जिसे प्राथमिक नामेनोड ऑफ़लाइन होने पर कुछ लोग गलत तरीके से बैकअप नामेनोड के रूप में व्याख्या कर सकते हैं। वास्तव में, द्वितीयक नामेनोड नियमित रूप से प्राथमिक नामेनोड से जुड़ता है और प्राथमिक नामेनोड की निर्देशिका जानकारी के स्नैपशॉट बनाता है, जिसे सिस्टम फिर स्थानीय या दूरस्थ निर्देशिकाओं में सहेजता है। इन चेकपॉइंट छवियों का उपयोग फ़ाइल-सिस्टम क्रियाओं के संपूर्ण जर्नल को फिर से चलाने के बिना एक विफल प्राथमिक नामेनोड को पुनरारंभ करने के लिए किया जा सकता है, फिर एक अप-टू-डेट निर्देशिका संरचना बनाने के लिए लॉग को संपादित करने के लिए किया जा सकता है। क्योंकि नामेनोड मेटाडेटा के भंडारण और प्रबंधन के लिए एकल बिंदु है, यह बड़ी संख्या में फ़ाइलों, विशेष रूप से बड़ी संख्या में छोटी फ़ाइलों का समर्थन करने के लिए एक बाधा बन सकता है। एचडीएफएस फेडरेशन, एक नया अतिरिक्त, अलग-अलग नामेनोड द्वारा एकाधिक नामस्थानों की अनुमति देकर इस समस्या से कुछ हद तक निपटने का लक्ष्य रखता है। इसके अलावा, एचडीएफएस में कुछ मुद्दे हैं जैसे छोटी फ़ाइल समस्याएं, स्केलेबिलिटी समस्याएं, एकल बिंदु विफलता (एसपीओएफ), और विशाल मेटाडेटा अनुरोधों में बाधाएं। एचडीएफएस का उपयोग करने का एक फायदा जॉब ट्रैकर और टास्क ट्रैकर के बीच डेटा जागरूकता है। जॉब ट्रैकर डेटा स्थान के बारे में जागरूकता के साथ कार्य ट्रैकर्स के लिए मैप शेड्यूल करता है या नौकरियों को कम करता है। उदाहरण के लिए: यदि नोड A में डेटा (a, b, c) है और नोड X में डेटा (x, y, z) है, तो जॉब ट्रैकर नोड A को मैप करने या (a, b, c) पर कार्यों को कम करने के लिए शेड्यूल करता है और नोड यह नेटवर्क पर जाने वाले ट्रैफ़िक की मात्रा को कम करता है और अनावश्यक डेटा स्थानांतरण को रोकता है। जब Hadoop का उपयोग अन्य फ़ाइल सिस्टम के साथ किया जाता है, तो यह लाभ हमेशा उपलब्ध नहीं होता है। यह कार्य-पूर्णता के समय पर महत्वपूर्ण प्रभाव डाल सकता है, जैसा कि डेटा-सघन नौकरियों के साथ प्रदर्शित होता है।^[36] एचडीएफएस को ज्यादातर अपरिवर्तनीय फ़ाइलों के लिए डिज़ाइन किया गया था और यह समवर्ती लेखन संचालन की आवश्यकता वाले सिस्टम के लिए उपयुक्त नहीं हो सकता है।^[34]

एचडीएफएस को सीधे लिनक्स और कुछ अन्य यूनिक्स यूजरस्पेस में फाइलसिस्टम (एफयूएसई) आभासी फ़ाइल सिस्टम में फाइल सिस्टम के साथ माउंट (कंप्यूटिंग) किया जा सकता है।

फ़ाइल एक्सेस को मूल जावा एपीआई, थ्रिफ्ट (प्रोटोकॉल) एपीआई (कई भाषाओं जैसे सी ++, जावा, पायथन, पीएचपी, रूबी, एर्लांग, पर्ल, हास्केल, सी #, कोको (एपीआई), स्मॉलटॉक और ओकैमल में क्लाइंट उत्पन्न करता है), कमांड-लाइन इंटरफ़ेस, HTTP पर एचडीएफएस-यूआई वेब अनुप्रयोग या तीसरे पक्ष के नेटवर्क क्लाइंट लाइब्रेरीज़ के माध्यम से प्राप्त किया जा सकता है।^[37] एचडीएफएस को विभिन्न हार्डवेयर प्लेटफार्मों पर पोर्टेबिलिटी और विभिन्न अंतर्निहित ऑपरेटिंग सिस्टम के साथ संगतता के लिए डिज़ाइन किया गया है। एचडीएफएस डिज़ाइन पोर्टेबिलिटी सीमाएं पेश करता है जिसके परिणामस्वरूप कुछ प्रदर्शन बाधाएं होती हैं, क्योंकि जावा कार्यान्वयन उन सुविधाओं का उपयोग नहीं कर सकता है जो उस प्लेटफ़ॉर्म के लिए विशिष्ट हैं जिस पर एचडीएफएस चल रहा है।^[38] एंटरप्राइज़-स्तरीय बुनियादी ढांचे में इसके व्यापक एकीकरण के कारण, बड़े पैमाने पर एचडीएफएस प्रदर्शन की निगरानी करना एक महत्वपूर्ण मुद्दा बन गया है। एंड-टू-एंड प्रदर्शन की निगरानी के लिए डेटानोड, नामेनोड और अंतर्निहित ऑपरेटिंग सिस्टम से मेट्रिक्स को ट्रैक करने की आवश्यकता होती है।^[39] एचडीएफएस प्रदर्शन को ट्रैक करने के लिए वर्तमान में कई मॉनिटरिंग प्लेटफ़ॉर्म हैं, जिनमें हॉर्टनवर्क्स # हॉर्टनवर्क्स डेटा प्लेटफ़ॉर्म (एचडीपी), क्लाउडेरा और डेटाडॉग शामिल हैं।

अन्य फ़ाइल सिस्टम

Hadoop किसी भी वितरित फ़ाइल सिस्टम के साथ सीधे काम करता है जिसे केवल इसका उपयोग करके अंतर्निहित ऑपरेटिंग सिस्टम द्वारा माउंट किया जा सकता है file:// यूआरएल; हालाँकि, इसकी एक कीमत होती है - स्थानीयता का नुकसान। नेटवर्क ट्रैफ़िक को कम करने के लिए, Hadoop को यह जानने की ज़रूरत है कि कौन से सर्वर डेटा के सबसे करीब हैं, जानकारी जो Hadoop-विशिष्ट फ़ाइल सिस्टम ब्रिज प्रदान कर सकता है।

मई 2011 में, Apache Hadoop के साथ बंडल किए गए समर्थित फ़ाइल सिस्टम की सूची इस प्रकार थी:

HDFS: Hadoop का अपना रैक-अवेयर फ़ाइल सिस्टम।^[40] इसे दसियों पेटाबाइट स्टोरेज के पैमाने के लिए डिज़ाइन किया गया है और यह अंतर्निहित ऑपरेटिंग सिस्टम के फ़ाइल सिस्टम के शीर्ष पर चलता है।
Apache Hadoop Ozone: HDFS-संगत ऑब्जेक्ट स्टोर लक्ष्यीकरण, अरबों छोटी फ़ाइलों के लिए अनुकूलित।
एफ़टीपी फ़ाइल सिस्टम: यह अपने सभी डेटा को दूरस्थ रूप से पहुंच योग्य एफ़टीपी सर्वर पर संग्रहीत करता है।
अमेज़ॅन सरल भंडारण सेवा | अमेज़ॅन एस3 (सिंपल स्टोरेज सर्विस) ऑब्जेक्ट स्टोरेज: यह अमेज़ॅन इलास्टिक कंप्यूट क्लाउड सर्वर-ऑन-डिमांड इंफ्रास्ट्रक्चर पर होस्ट किए गए क्लस्टर पर लक्षित है। इस फाइल सिस्टम में कोई रैक-अवेयरनेस नहीं है, क्योंकि यह सब रिमोट है।
विंडोज़ एज़्योर स्टोरेज ब्लॉब्स (डब्ल्यूएएसबी) फाइल सिस्टम: यह एचडीएफएस का एक एक्सटेंशन है जो Hadoop के वितरण को डेटा को क्लस्टर में स्थायी रूप से ले जाए बिना एज़्योर ब्लॉब स्टोर्स में डेटा तक पहुंचने की अनुमति देता है।

कई तृतीय-पक्ष फ़ाइल सिस्टम ब्रिज भी लिखे गए हैं, जिनमें से कोई भी वर्तमान में Hadoop वितरण में नहीं है। हालाँकि, Hadoop के कुछ व्यावसायिक वितरण डिफ़ॉल्ट के रूप में एक वैकल्पिक फ़ाइल सिस्टम के साथ आते हैं – विशेष रूप से आईबीएम और मैपआर।

2009 में, IBM ने आईबीएम जनरल पैरेलल फाइल सिस्टम पर Hadoop चलाने पर चर्चा की।^[41] स्रोत कोड अक्टूबर 2009 में प्रकाशित हुआ था।^[42]
अप्रैल 2010 में, पैरास्केल ने पैरास्केल फ़ाइल सिस्टम के विरुद्ध Hadoop को चलाने के लिए स्रोत कोड प्रकाशित किया।^[43]
अप्रैल 2010 में, ऐपिस्ट्री ने अपने स्वयं के क्लाउडआईक्यू स्टोरेज उत्पाद के साथ उपयोग के लिए एक Hadoop फ़ाइल सिस्टम ड्राइवर जारी किया।^[44]
जून 2010 में, हेवलेट पैकर्ड ने स्थान-जागरूक IBRIX फ़्यूज़न फ़ाइल सिस्टम ड्राइवर पर चर्चा की।^[45]
मई 2011 में, MapR|MapR Technologies Inc. ने Hadoop, MapR FS के लिए एक वैकल्पिक फ़ाइल सिस्टम की उपलब्धता की घोषणा की, जिसने HDFS फ़ाइल सिस्टम को पूर्ण रैंडम-एक्सेस रीड/राइट फ़ाइल सिस्टम से बदल दिया।

जॉबट्रैकर और टास्कट्रैकर: मैपरिड्यूस इंजन

फ़ाइल सिस्टम के ऊपर MapReduce इंजन आता है, जिसमें एक जॉबट्रैकर होता है, जिसमें क्लाइंट एप्लिकेशन MapReduce जॉब सबमिट करते हैं। जॉबट्रैकर क्लस्टर में उपलब्ध टास्कट्रैकर नोड्स पर काम को आगे बढ़ाता है, काम को यथासंभव डेटा के करीब रखने का प्रयास करता है। रैक-अवेयर फ़ाइल सिस्टम के साथ, जॉबट्रैकर जानता है कि किस नोड में डेटा है, और कौन सी अन्य मशीनें पास में हैं। यदि कार्य को वास्तविक नोड पर होस्ट नहीं किया जा सकता है जहां डेटा रहता है, तो उसी रैक में नोड्स को प्राथमिकता दी जाती है। इससे मुख्य बैकबोन नेटवर्क पर नेटवर्क ट्रैफ़िक कम हो जाता है। यदि कोई टास्कट्रैकर विफल हो जाता है या समय समाप्त हो जाता है, तो कार्य का वह हिस्सा पुनर्निर्धारित किया जाता है। प्रत्येक नोड पर टास्कट्रैकर एक अलग जावा वर्चुअल मशीन (जेवीएम) प्रक्रिया को जन्म देता है ताकि यदि रनिंग जॉब उसके जेवीएम को क्रैश कर दे तो टास्कट्रैकर को विफल होने से रोका जा सके। इसकी स्थिति की जांच करने के लिए हर कुछ मिनटों में टास्कट्रैकर से जॉबट्रैकर को एक दिल की धड़कन भेजी जाती है। जॉब ट्रैकर और टास्कट्रैकर की स्थिति और जानकारी जेट्टी (वेब सर्वर) द्वारा प्रदर्शित की जाती है और इसे वेब ब्राउज़र से देखा जा सकता है।

इस दृष्टिकोण की ज्ञात सीमाएँ हैं:

TaskTrackers को कार्य का आवंटन बहुत सरल है। प्रत्येक टास्कट्रैकर में कई उपलब्ध स्लॉट होते हैं (जैसे कि 4 स्लॉट)। प्रत्येक सक्रिय मानचित्र या छोटा कार्य एक स्लॉट लेता है। जॉब ट्रैकर उपलब्ध स्लॉट के साथ डेटा के निकटतम ट्रैकर को कार्य आवंटित करता है। आवंटित मशीन के वर्तमान लोड (कंप्यूटिंग) और इसलिए इसकी वास्तविक उपलब्धता पर कोई विचार नहीं किया गया है।
यदि एक टास्कट्रैकर बहुत धीमा है, तो यह पूरे MapReduce कार्य में देरी कर सकता है – विशेष रूप से अंत की ओर, जब सब कुछ सबसे धीमे कार्य की प्रतीक्षा में समाप्त हो सकता है। हालाँकि, सट्टा निष्पादन सक्षम होने पर, एक ही कार्य को कई स्लेव नोड्स पर निष्पादित किया जा सकता है।

शेड्यूलिंग

डिफ़ॉल्ट रूप से Hadoop FIFO (कंप्यूटिंग और इलेक्ट्रॉनिक्स) शेड्यूलिंग का उपयोग करता है, और वैकल्पिक रूप से कार्य कतार से नौकरियों को शेड्यूल करने के लिए 5 शेड्यूलिंग प्राथमिकताओं का उपयोग करता है।^[46] संस्करण 0.19 में जॉब शेड्यूलर को जॉबट्रैकर से दोबारा तैयार किया गया था, जबकि एक वैकल्पिक शेड्यूलर (जैसे कि फेयर शेड्यूलर या कैपेसिटी शेड्यूलर, आगे वर्णित है) का उपयोग करने की क्षमता को जोड़ा गया था।^[47]

उचित अनुसूचक

मेला अनुसूचक फेसबुक द्वारा विकसित किया गया था।^[48] फेयर शेड्यूलर का लक्ष्य छोटी नौकरियों के लिए तेजी से प्रतिक्रिया समय और उत्पादन नौकरियों के लिए सेवा की गुणवत्ता (क्यूओएस) प्रदान करना है। मेला अनुसूचक की तीन बुनियादी अवधारणाएँ हैं।^[49]

नौकरियों को पूल (कंप्यूटर विज्ञान) में वर्गीकृत किया गया है।
प्रत्येक पूल को एक गारंटीशुदा न्यूनतम हिस्सा सौंपा गया है।
अतिरिक्त क्षमता को नौकरियों के बीच विभाजित किया जाता है।

डिफ़ॉल्ट रूप से, जो नौकरियाँ अवर्गीकृत होती हैं वे डिफ़ॉल्ट पूल में चली जाती हैं। पूल को मैप स्लॉट की न्यूनतम संख्या निर्दिष्ट करनी होगी, स्लॉट कम करने होंगे, साथ ही चलने वाली नौकरियों की संख्या पर एक सीमा तय करनी होगी।

क्षमता अनुसूचक

क्षमता अनुसूचक याहू द्वारा विकसित किया गया था। क्षमता अनुसूचक कई सुविधाओं का समर्थन करता है जो निष्पक्ष अनुसूचक के समान हैं।^[50]

कतारों को कुल संसाधन क्षमता का एक अंश आवंटित किया जाता है।
कतारों को उनकी कुल क्षमता से अधिक मुफ़्त संसाधन आवंटित किए जाते हैं।
एक कतार के भीतर, उच्च स्तर की प्राथमिकता वाली नौकरी के पास कतार के संसाधनों तक पहुंच होती है।

एक बार कार्य चलने के बाद कोई प्रीएम्प्शन (कंप्यूटिंग) नहीं होती है।

Hadoop 1 और Hadoop 2 (YARN) के बीच अंतर

Hadoop 1 और Hadoop 2 के बीच सबसे बड़ा अंतर YARN (येट अदर रिसोर्स नेगोशिएटर) को शामिल करना है, जिसने Hadoop के पहले संस्करण में MapReduce इंजन को बदल दिया। YARN विभिन्न अनुप्रयोगों के लिए संसाधनों को प्रभावी ढंग से आवंटित करने का प्रयास करता है। यह दो डेमॉन चलाता है, जो दो अलग-अलग कार्यों का ख्याल रखता है: संसाधन प्रबंधक, जो अनुप्रयोगों के लिए जॉब ट्रैकिंग और संसाधन आवंटन करता है, एप्लिकेशन मास्टर, जो निष्पादन की प्रगति की निगरानी करता है।

Hadoop 2 और Hadoop 3 के बीच अंतर

Hadoop 3 द्वारा प्रदान की गई महत्वपूर्ण विशेषताएं हैं। उदाहरण के लिए, जबकि Hadoop 2 में एक एकल नामेनोड है, Hadoop 3, एकाधिक नाम नोड्स को सक्षम बनाता है, जो विफलता समस्या के एकल बिंदु को हल करता है।

Hadoop 3 में, Docker (सॉफ़्टवेयर) के सिद्धांत पर काम करने वाले कंटेनर हैं, जो एप्लिकेशन विकास पर लगने वाले समय को कम करता है।

सबसे बड़े बदलावों में से एक यह है कि Hadoop 3 मिटाओ कोड के साथ स्टोरेज ओवरहेड को कम करता है।

इसके अलावा, Hadoop 3 क्लस्टर के भीतर GPU हार्डवेयर के उपयोग की अनुमति देता है, जो Hadoop क्लस्टर पर गहन शिक्षण एल्गोरिदम को निष्पादित करने के लिए एक बहुत ही महत्वपूर्ण लाभ है।^[51]

अन्य अनुप्रयोग

HDFS MapReduce नौकरियों तक सीमित नहीं है। इसका उपयोग अन्य अनुप्रयोगों के लिए किया जा सकता है, जिनमें से कई अपाचे में विकास के अधीन हैं। सूची में HBase डेटाबेस, अपाचे महाउट यंत्र अधिगम सिस्टम और अपाचे हाइव डेटा वेयरहाउस शामिल हैं। सैद्धांतिक रूप से, Hadoop का उपयोग किसी भी कार्यभार के लिए किया जा सकता है जो वास्तविक समय के बजाय बैच-उन्मुख है, बहुत डेटा-गहन है, और समानांतर कंप्यूटिंग से लाभ उठाता है। इसका उपयोग वास्तविक समय प्रणाली के पूरक के लिए भी किया जा सकता है, जैसे लैम्ब्डा वास्तुकला, अपाचे स्टॉर्म, अपाचे फ़्लैश और अपाचे स्पार्क#स्पार्क स्ट्रीमिंग।^[52] Hadoop के व्यावसायिक अनुप्रयोगों में शामिल हैं:^[53]

लॉग या क्लिकस्ट्रीम विश्लेषण
मार्केटिंग एनालिटिक्स
मशीन लर्निंग और डेटा खनन
मूर्ति प्रोद्योगिकी
एक्सएमएल संदेश प्रसंस्करण
वेब रेंगना
संबंधपरक और सारणीबद्ध डेटा सहित अनुपालन के लिए अभिलेखीय कार्य

प्रमुख उपयोग के मामले

19 फ़रवरी 2008 को, Yahoo! इंक. ने लॉन्च किया और दावा किया कि यह दुनिया का सबसे बड़ा Hadoop उत्पादन एप्लिकेशन है। याहू! सर्च वेबमैप एक Hadoop एप्लिकेशन है जो 10,000 से अधिक मल्टी कोर और उत्पादित डेटा के साथ Linux क्लस्टर पर चलता है जिसका उपयोग प्रत्येक Yahoo! वेब खोज क्वेरी.^[54] Yahoo! पर कई Hadoop क्लस्टर हैं! और कोई भी HDFS फ़ाइल सिस्टम या MapReduce कार्य एकाधिक डेटा केंद्रों में विभाजित नहीं हैं। प्रत्येक Hadoop क्लस्टर नोड Hadoop वितरण सहित Linux छवि को बूटस्ट्रैप करता है। यह ज्ञात है कि क्लस्टर द्वारा किए जाने वाले कार्य में याहू के लिए सूचकांक गणना शामिल होती है! खोज इंजन। जून 2009 में, Yahoo! अपने Hadoop संस्करण का स्रोत कोड ओपन-सोर्स समुदाय के लिए उपलब्ध कराया।^[55] 2010 में, फेसबुक ने दावा किया कि उनके पास 21 पेटाबाइट स्टोरेज के साथ दुनिया का सबसे बड़ा Hadoop क्लस्टर है।^[56] जून 2012 में, उन्होंने घोषणा की कि डेटा बढ़कर 100 पीबी हो गया है^[57] और उस वर्ष बाद में उन्होंने घोषणा की कि डेटा प्रति दिन लगभग आधा पीबी बढ़ रहा है।^[58]

As of 2013^[update], Hadoop को अपनाना व्यापक हो गया था: फॉर्च्यून 50 कंपनियों में से आधे से अधिक ने Hadoop का उपयोग किया था।^[59]

क्लाउड में Hadoop होस्टिंग

Hadoop को पारंपरिक ऑनसाइट डेटासेंटर के साथ-साथ क्लाउड कम्प्यूटिंग में भी तैनात किया जा सकता है।^[60] क्लाउड संगठनों को हार्डवेयर या विशिष्ट सेटअप विशेषज्ञता प्राप्त करने की आवश्यकता के बिना Hadoop को तैनात करने की अनुमति देता है।^[61]

वाणिज्यिक समर्थन

कई कंपनियाँ Hadoop के लिए व्यावसायिक कार्यान्वयन या समर्थन की पेशकश करती हैं।^[62]

ब्रांडिंग

Apache Software फाउंडेशन ने कहा है कि केवल Apache Hadoop प्रोजेक्ट द्वारा आधिकारिक तौर पर जारी किए गए सॉफ़्टवेयर को Apache Hadoop या Apache Hadoop का वितरण कहा जा सकता है।^[63] अन्य विक्रेताओं के उत्पादों और व्युत्पन्न कार्यों का नामकरण और संगत शब्द Hadoop डेवलपर समुदाय के भीतर कुछ हद तक विवादास्पद हैं।^[64]

कागज़

कुछ कागजात ने Hadoop और बड़े डेटा प्रोसेसिंग के जन्म और विकास को प्रभावित किया। इनमें से कुछ हैं:

जेफरी डीन, संजय गेमावत (2004) MapReduce: बड़े समूहों पर सरलीकृत डेटा प्रोसेसिंग, Google। इस पेपर ने डौग कटिंग को मैप-रिड्यूस फ्रेमवर्क का एक ओपन-सोर्स कार्यान्वयन विकसित करने के लिए प्रेरित किया। उन्होंने अपने बेटे के खिलौने वाले हाथी के नाम पर इसका नाम Hadoop रखा।
माइकल फ्रैंकलिन, एलोन हेलेवी, डेविड मैयर (2005) डेटाबेस से डेटास्पेस तक: सूचना प्रबंधन के लिए एक नया सार। लेखक सभी डेटा प्रारूपों को स्वीकार करने और डेटा एक्सेस के लिए एपीआई प्रदान करने के लिए स्टोरेज सिस्टम की आवश्यकता पर प्रकाश डालते हैं जो स्टोरेज सिस्टम की डेटा की समझ के आधार पर विकसित होता है।
फे चांग एट अल। (2006) बिगटेबल: संरचित डेटा के लिए एक वितरित भंडारण प्रणाली, गूगल।
रॉबर्ट कल्मन एट अल। (2008) एच-स्टोर: एक उच्च-प्रदर्शन, वितरित मुख्य मेमोरी लेनदेन प्रसंस्करण प्रणाली

यह भी देखें

अपाचे संचय - सुरक्षित बड़ी मेज ^[65]
Apache Cassandra, एक स्तंभ-उन्मुख डेटाबेस जो Hadoop से पहुंच का समर्थन करता है
Apache CouchDB, एक डेटाबेस जो दस्तावेज़ों के लिए JSON, MapReduce प्रश्नों के लिए JavaScript और API के लिए नियमित HTTP का उपयोग करता है
Apache HCatalog, Hadoop के लिए एक तालिका और भंडारण प्रबंधन परत
बड़ा डेटा
डेटा-सघन कंप्यूटिंग
एचपीसीसी - लेक्सिसनेक्सिस रिस्क सॉल्यूशंस हाई परफॉर्मेंस कंप्यूटिंग क्लस्टर
हाइपरटेबल - HBase विकल्प
सेक्टर/क्षेत्र - खुला स्रोत वितरित भंडारण और प्रसंस्करण
स्लम वर्कलोड प्रबंधक

संदर्भ

↑ "Hadoop Releases". apache.org. Apache Software Foundation. Retrieved 28 April 2019.
↑ ^2.0 ^2.1 ^2.2 "Apache Hadoop". Retrieved 27 September 2022.
↑ Judge, Peter (22 October 2012). "Doug Cutting: Big Data Is No Bubble". silicon.co.uk. Retrieved 11 March 2018.{{cite web}}: CS1 maint: url-status (link)
↑ Woodie, Alex (12 May 2014). "आईबीएम पावर पर Hadoop क्यों?". datanami.com. Datanami. Retrieved 11 March 2018.
↑ Hemsoth, Nicole (15 October 2014). "क्रे ने Hadoop को HPC एयरस्पेस में लॉन्च किया". hpcwire.com. Retrieved 11 March 2018.
↑ "अपाचे Hadoop में आपका स्वागत है!". hadoop.apache.org. Retrieved 25 August 2016.
↑ "What is the Hadoop Distributed File System (HDFS)?". ibm.com. IBM. Retrieved 12 April 2021.{{cite web}}: CS1 maint: url-status (link)
↑ Malak, Michael (19 September 2014). "Data Locality: HPC vs. Hadoop vs. Spark". datascienceassn.org. Data Science Association. Retrieved 30 October 2014.
↑ Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng (October 2014). "Characterization and Optimization of Memory-Resident MapReduce on HPC Systems". 2014 IEEE 28th International Parallel and Distributed Processing Symposium. IEEE. pp. 799–808. doi:10.1109/IPDPS.2014.87. ISBN 978-1-4799-3800-1. S2CID 11157612.
↑ "Resource (Apache Hadoop Main 2.5.1 API)". apache.org. Apache Software Foundation. 12 September 2014. Archived from the original on 6 October 2014. Retrieved 30 September 2014.
↑ Murthy, Arun (15 August 2012). "Apache Hadoop YARN – Concepts and Applications". hortonworks.com. Hortonworks. Retrieved 30 September 2014.
↑ "Continuuity Raises $10 Million Series A Round to Ignite Big Data Application Development Within the Hadoop Ecosystem". finance.yahoo.com. Marketwired. 14 November 2012. Retrieved 30 October 2014.
↑ "Hadoop-संबंधित परियोजनाएं". Hadoop.apache.org. Retrieved 17 October 2013.
↑ Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data. John Wiley & Sons. 19 December 2014. p. 300. ISBN 9781118876220. Retrieved 29 January 2015.
↑ "[nlpatumd] Adventures with Hadoop and Perl". Mail-archive.com. 2 May 2010. Retrieved 5 April 2013.
↑ Cutting, Mike; Cafarella, Ben; Lorica, Doug (31 March 2016). "Apache Hadoop के अगले 10 वर्ष". O'Reilly Media. Retrieved 12 October 2017.
↑ Ghemawat, Sanjay; Gobioff, Howard; Leung, Shun-Tak (2003). "Google फ़ाइल सिस्टम". pp. 20–43.
↑ Dean, Jeffrey; Ghemawat, Sanjay (2004). "MapReduce: Simplified Data Processing on Large Clusters". pp. 137–150.
↑ Cutting, Doug (28 January 2006). "new mailing lists request: hadoop". issues.apache.org. The Lucene PMC has voted to split part of Nutch into a new sub-project named Hadoop
↑ Vance, Ashlee (17 March 2009). "Hadoop, एक मुफ़्त सॉफ़्टवेयर प्रोग्राम, खोज से परे उपयोग ढूँढता है". The New York Times. Archived from the original on 30 August 2011. Retrieved 20 January 2010.
↑ Cutting, Doug (30 March 2006). "[RESULT] VOTE: add Owen O'Malley as Hadoop committer". hadoop-common-dev (Mailing list).
↑ "Index of /dist/hadoop/core". archive.apache.org. Retrieved 11 December 2017.
↑ "हम जो हैं". hadoop.apache.org. Retrieved 11 December 2017.
↑ Borthakur, Dhruba (2006). "The Hadoop Distributed File System: Architecture and Design" (PDF). Apache Hadoop Code Repository.
↑ Chouraria, Harsh (21 October 2012). "MR2 and YARN Briefly Explained". Cloudera.com. Archived from the original on 22 October 2013. Retrieved 23 October 2013.
↑ "एचडीएफएस उपयोगकर्ता गाइड". Hadoop.apache.org. Retrieved 4 September 2014.
↑ "उबंटू लिनक्स सिस्टम (मल्टी-नोड क्लस्टर) पर Hadoop चलाना".
↑ "उबंटू लिनक्स पर Hadoop चलाना (सिंगल-नोड क्लस्टर)". Retrieved 6 June 2013.
↑ Evans, Chris (October 2013). "Big data storage: Hadoop storage basics". computerweekly.com. Computer Weekly. Retrieved 21 June 2016. HDFS is not a file system in the traditional sense and isn't usually directly mounted for a user to view
↑ deRoos, Dirk. "Hadoop फ़ाइल सिस्टम कमांड के साथ फ़ाइलें प्रबंधित करना". dummies.com. For Dummies. Retrieved 21 June 2016.
↑ Balram. "शुरुआती लोगों के लिए बिग डेटा Hadoop ट्यूटोरियल". www.gyansetu.in. Retrieved 11 March 2021.
↑ "Apache Hadoop 2.7.5 – HDFS Users Guide". Archived from the original on 23 October 2019. Retrieved 19 June 2020.
↑ "एचडीएफएस आर्किटेक्चर". Retrieved 1 September 2013.
↑ ^34.0 ^34.1 Pessach, Yaniv (2013). "वितरित भंडारण" (वितरित भंडारण: Concepts, Algorithms, and Implementations ed.). OL 25423189M. {{cite journal}}: Cite journal requires |journal= (help)
↑ "Version 2.0 provides for manual failover and they are working on automatic failover". Hadoop.apache.org. Retrieved 30 July 2013.
↑ "विषम Hadoop क्लस्टर में डेटा प्लेसमेंट के माध्यम से MapReduce प्रदर्शन में सुधार करना" (PDF). Eng.auburn.ed. April 2010.
↑ "एचडीएफएस स्थापित करना". Retrieved 5 August 2016.
↑ Shafer, Jeffrey; Rixner, Scott; Cox, Alan. "The Hadoop Distributed Filesystem: Balancing Portability and Performance" (PDF). Rice University. Retrieved 19 September 2016.
↑ Mouzakitis, Evan (21 July 2016). "Hadoop प्रदर्शन मेट्रिक्स कैसे एकत्र करें". Retrieved 24 October 2016.
↑ "HDFS Users Guide – Rack Awareness". Hadoop.apache.org. Retrieved 17 October 2013.
↑ "Cloud analytics: Do we really need to reinvent the storage stack?" (PDF). IBM. June 2009.
↑ "HADOOP-6330: Integrating IBM General Parallel File System implementation of Hadoop Filesystem interface". IBM. 23 October 2009.
↑ "HADOOP-6704: add support for Parascale filesystem". Parascale. 14 April 2010.
↑ "CloudIQ स्टोरेज के साथ HDFS". Appistry,Inc. 6 July 2010. Archived from the original on 5 April 2014. Retrieved 10 December 2013.
↑ "उच्च उपलब्धता Hadoop". HP. 9 June 2010.
↑ "कमांड गाइड". 17 August 2011. Archived from the original on 17 August 2011. Retrieved 11 December 2017.{{cite web}}: CS1 maint: bot: original URL status unknown (link)
↑ "जॉबट्रैकर से शेड्यूलर को रिफैक्टर करें". Hadoop Common. Apache Software Foundation. Retrieved 9 June 2012.
↑ Jones, M. Tim (6 December 2011). "Hadoop में शेड्यूलिंग". ibm.com. IBM. Retrieved 20 November 2013.
↑ "Hadoop फेयर शेड्यूलर डिज़ाइन दस्तावेज़" (PDF). apache.org. Retrieved 12 October 2017.
↑ "क्षमता अनुसूचक गाइड". Hadoop.apache.org. Retrieved 31 December 2015.
↑ "How Apache Hadoop 3 Adds Value Over Apache Hadoop 2". hortonworks.com. 7 February 2018. Retrieved 11 June 2018.
↑ Chintapalli, Sanket; Dagit, Derek; Evans, Bobby; Farivar, Reza; Graves, Thomas; Holderbaugh, Mark; Liu, Zhuo; Nusbaum, Kyle; Patil, Kishorkumar; Peng, Boyang Jerry; Poulosky, Paul (May 2016). "Benchmarking Streaming Computation Engines: Storm, Flink and Spark Streaming". 2016 IEEE International Parallel and Distributed Processing Symposium Workshops (IPDPSW). IEEE. pp. 1789–1792. doi:10.1109/IPDPSW.2016.138. ISBN 978-1-5090-3682-0. S2CID 2180634.
↑ ""How 30+ enterprises are using Hadoop", in DBMS2". Dbms2.com. 10 October 2009. Retrieved 17 October 2013.
↑ "याहू! दुनिया का सबसे बड़ा Hadoop प्रोडक्शन एप्लिकेशन लॉन्च किया". Yahoo. 19 February 2008. Archived from the original on 7 March 2016. Retrieved 31 December 2015.
↑ "याहू पर Hadoop और वितरित कंप्यूटिंग!". Yahoo!. 20 April 2011. Retrieved 17 October 2013.
↑ "HDFS: Facebook has the world's largest Hadoop cluster!". Hadoopblog.blogspot.com. 9 May 2010. Retrieved 23 May 2012.
↑ "Under the Hood: Hadoop Distributed File system reliability with Namenode and Avatarnode". Facebook. Retrieved 13 September 2012.
↑ "Under the Hood: Scheduling MapReduce jobs more efficiently with Corona". Facebook. Retrieved 9 November 2012.
↑ "Altior's AltraSTAR – Hadoop Storage Accelerator and Optimizer Now Certified on CDH4 (Cloudera's Distribution Including Apache Hadoop Version 4)" (Press release). Eatontown, NJ: Altior Inc. 18 December 2012. Retrieved 30 October 2013.
↑ "Hadoop - Microsoft Azure". azure.microsoft.com. Retrieved 11 December 2017.
↑ "Hadoop". Azure.microsoft.com. Retrieved 22 July 2014.
↑ "Hadoop इनोवेशन की गति क्यों बढ़नी चाहिए?". Gigaom.com. 25 April 2011. Retrieved 17 October 2013.
↑ "Hadoop को परिभाषित करना". Wiki.apache.org. 30 March 2013. Retrieved 17 October 2013.
↑ "Defining Hadoop Compatibility: revisited". Mail-archives.apache.org. 10 May 2011. Retrieved 17 October 2013.
↑ "Apache Accumulo User Manual: Security". apache.org. Apache Software Foundation. Retrieved 3 December 2014.

ग्रन्थसूची

Lam, Chuck (28 July 2010). Hadoop in Action (1st ed.). Manning Publications. p. 325. ISBN 978-1-935-18219-1.
Venner, Jason (22 June 2009). Pro Hadoop (1st ed.). Apress. p. 440. ISBN 978-1-430-21942-2. Archived from the original on 5 December 2010. Retrieved 3 July 2009.
White, Tom (16 June 2009). Hadoop: The Definitive Guide (1st ed.). O'Reilly Media. p. 524. ISBN 978-0-596-52197-4.
Vohra, Deepak (October 2016). Practical Hadoop Ecosystem: A Definitive Guide to Hadoop-Related Frameworks and Tools (1st ed.). Apress. p. 429. ISBN 978-1-4842-2199-0.
Wiktorski, Tomasz (January 2019). Data-intensive Systems. Cham, Switzerland: Springer. ISBN 978-3-030-04603-3.

बाहरी संबंध

No URL found. Please specify a URL here or add one to Wikidata.

[1] "Hadoop Releases". apache.org. Apache Software Foundation. Retrieved 28 April 2019.

[releases-2] 2.0 ^2.1 ^2.2 "Apache Hadoop". Retrieved 27 September 2022.

[3] Judge, Peter (22 October 2012). "Doug Cutting: Big Data Is No Bubble". silicon.co.uk. Retrieved 11 March 2018.{{cite web}}: CS1 maint: url-status (link)

[4] Woodie, Alex (12 May 2014). "आईबीएम पावर पर Hadoop क्यों?". datanami.com. Datanami. Retrieved 11 March 2018.

[5] Hemsoth, Nicole (15 October 2014). "क्रे ने Hadoop को HPC एयरस्पेस में लॉन्च किया". hpcwire.com. Retrieved 11 March 2018.

[homepage-6] "अपाचे Hadoop में आपका स्वागत है!". hadoop.apache.org. Retrieved 25 August 2016.

[7] "What is the Hadoop Distributed File System (HDFS)?". ibm.com. IBM. Retrieved 12 April 2021.{{cite web}}: CS1 maint: url-status (link)

[8] Malak, Michael (19 September 2014). "Data Locality: HPC vs. Hadoop vs. Spark". datascienceassn.org. Data Science Association. Retrieved 30 October 2014.

[9] Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng (October 2014). "Characterization and Optimization of Memory-Resident MapReduce on HPC Systems". 2014 IEEE 28th International Parallel and Distributed Processing Symposium. IEEE. pp. 799–808. doi:10.1109/IPDPS.2014.87. ISBN 978-1-4799-3800-1. S2CID 11157612.

[10] "Resource (Apache Hadoop Main 2.5.1 API)". apache.org. Apache Software Foundation. 12 September 2014. Archived from the original on 6 October 2014. Retrieved 30 September 2014.

[11] Murthy, Arun (15 August 2012). "Apache Hadoop YARN – Concepts and Applications". hortonworks.com. Hortonworks. Retrieved 30 September 2014.

[12] "Continuuity Raises $10 Million Series A Round to Ignite Big Data Application Development Within the Hadoop Ecosystem". finance.yahoo.com. Marketwired. 14 November 2012. Retrieved 30 October 2014.

[13] "Hadoop-संबंधित परियोजनाएं". Hadoop.apache.org. Retrieved 17 October 2013.

[14] Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data. John Wiley & Sons. 19 December 2014. p. 300. ISBN 9781118876220. Retrieved 29 January 2015.

[15] "[nlpatumd] Adventures with Hadoop and Perl". Mail-archive.com. 2 May 2010. Retrieved 5 April 2013.

[16] Cutting, Mike; Cafarella, Ben; Lorica, Doug (31 March 2016). "Apache Hadoop के अगले 10 वर्ष". O'Reilly Media. Retrieved 12 October 2017.

[17] Ghemawat, Sanjay; Gobioff, Howard; Leung, Shun-Tak (2003). "Google फ़ाइल सिस्टम". pp. 20–43.

[18] Dean, Jeffrey; Ghemawat, Sanjay (2004). "MapReduce: Simplified Data Processing on Large Clusters". pp. 137–150.

[19] Cutting, Doug (28 January 2006). "new mailing lists request: hadoop". issues.apache.org. The Lucene PMC has voted to split part of Nutch into a new sub-project named Hadoop

[20] Vance, Ashlee (17 March 2009). "Hadoop, एक मुफ़्त सॉफ़्टवेयर प्रोग्राम, खोज से परे उपयोग ढूँढता है". The New York Times. Archived from the original on 30 August 2011. Retrieved 20 January 2010.

[21] Cutting, Doug (30 March 2006). "[RESULT] VOTE: add Owen O'Malley as Hadoop committer". hadoop-common-dev (Mailing list).

[22] "Index of /dist/hadoop/core". archive.apache.org. Retrieved 11 December 2017.

[23] "हम जो हैं". hadoop.apache.org. Retrieved 11 December 2017.

[24] Borthakur, Dhruba (2006). "The Hadoop Distributed File System: Architecture and Design" (PDF). Apache Hadoop Code Repository.

[25] Chouraria, Harsh (21 October 2012). "MR2 and YARN Briefly Explained". Cloudera.com. Archived from the original on 22 October 2013. Retrieved 23 October 2013.

[26] "एचडीएफएस उपयोगकर्ता गाइड". Hadoop.apache.org. Retrieved 4 September 2014.

[michael-noll.com_2-27] "उबंटू लिनक्स सिस्टम (मल्टी-नोड क्लस्टर) पर Hadoop चलाना".

[michael-noll.com_1-28] "उबंटू लिनक्स पर Hadoop चलाना (सिंगल-नोड क्लस्टर)". Retrieved 6 June 2013.

[29] Evans, Chris (October 2013). "Big data storage: Hadoop storage basics". computerweekly.com. Computer Weekly. Retrieved 21 June 2016. HDFS is not a file system in the traditional sense and isn't usually directly mounted for a user to view

[30] Roos, Dirk. "Hadoop फ़ाइल सिस्टम कमांड के साथ फ़ाइलें प्रबंधित करना". dummies.com. For Dummies. Retrieved 21 June 2016.

[31] Balram. "शुरुआती लोगों के लिए बिग डेटा Hadoop ट्यूटोरियल". www.gyansetu.in. Retrieved 11 March 2021.

[32] "Apache Hadoop 2.7.5 – HDFS Users Guide". Archived from the original on 23 October 2019. Retrieved 19 June 2020.

[33] "एचडीएफएस आर्किटेक्चर". Retrieved 1 September 2013.

[openlibrary1-34] 34.0 ^34.1 Pessach, Yaniv (2013). "वितरित भंडारण" (वितरित भंडारण: Concepts, Algorithms, and Implementations ed.). OL 25423189M. {{cite journal}}: Cite journal requires |journal= (help)

[failover-35] "Version 2.0 provides for manual failover and they are working on automatic failover". Hadoop.apache.org. Retrieved 30 July 2013.

[36] "विषम Hadoop क्लस्टर में डेटा प्लेसमेंट के माध्यम से MapReduce प्रदर्शन में सुधार करना" (PDF). Eng.auburn.ed. April 2010.

[37] "एचडीएफएस स्थापित करना". Retrieved 5 August 2016.

[38] Shafer, Jeffrey; Rixner, Scott; Cox, Alan. "The Hadoop Distributed Filesystem: Balancing Portability and Performance" (PDF). Rice University. Retrieved 19 September 2016.

[39] Mouzakitis, Evan (21 July 2016). "Hadoop प्रदर्शन मेट्रिक्स कैसे एकत्र करें". Retrieved 24 October 2016.

[40] "HDFS Users Guide – Rack Awareness". Hadoop.apache.org. Retrieved 17 October 2013.

[41] "Cloud analytics: Do we really need to reinvent the storage stack?" (PDF). IBM. June 2009.

[42] "HADOOP-6330: Integrating IBM General Parallel File System implementation of Hadoop Filesystem interface". IBM. 23 October 2009.

[43] "HADOOP-6704: add support for Parascale filesystem". Parascale. 14 April 2010.

[44] "CloudIQ स्टोरेज के साथ HDFS". Appistry,Inc. 6 July 2010. Archived from the original on 5 April 2014. Retrieved 10 December 2013.

[45] "उच्च उपलब्धता Hadoop". HP. 9 June 2010.

[46] "कमांड गाइड". 17 August 2011. Archived from the original on 17 August 2011. Retrieved 11 December 2017.{{cite web}}: CS1 maint: bot: original URL status unknown (link)

[47] "जॉबट्रैकर से शेड्यूलर को रिफैक्टर करें". Hadoop Common. Apache Software Foundation. Retrieved 9 June 2012.

[48] Jones, M. Tim (6 December 2011). "Hadoop में शेड्यूलिंग". ibm.com. IBM. Retrieved 20 November 2013.

[49] "Hadoop फेयर शेड्यूलर डिज़ाइन दस्तावेज़" (PDF). apache.org. Retrieved 12 October 2017.

[50] "क्षमता अनुसूचक गाइड". Hadoop.apache.org. Retrieved 31 December 2015.

[51] "How Apache Hadoop 3 Adds Value Over Apache Hadoop 2". hortonworks.com. 7 February 2018. Retrieved 11 June 2018.

[52] Chintapalli, Sanket; Dagit, Derek; Evans, Bobby; Farivar, Reza; Graves, Thomas; Holderbaugh, Mark; Liu, Zhuo; Nusbaum, Kyle; Patil, Kishorkumar; Peng, Boyang Jerry; Poulosky, Paul (May 2016). "Benchmarking Streaming Computation Engines: Storm, Flink and Spark Streaming". 2016 IEEE International Parallel and Distributed Processing Symposium Workshops (IPDPSW). IEEE. pp. 1789–1792. doi:10.1109/IPDPSW.2016.138. ISBN 978-1-5090-3682-0. S2CID 2180634.

[53] ""How 30+ enterprises are using Hadoop", in DBMS2". Dbms2.com. 10 October 2009. Retrieved 17 October 2013.

[54] "याहू! दुनिया का सबसे बड़ा Hadoop प्रोडक्शन एप्लिकेशन लॉन्च किया". Yahoo. 19 February 2008. Archived from the original on 7 March 2016. Retrieved 31 December 2015.

[55] "याहू पर Hadoop और वितरित कंप्यूटिंग!". Yahoo!. 20 April 2011. Retrieved 17 October 2013.

[56] "HDFS: Facebook has the world's largest Hadoop cluster!". Hadoopblog.blogspot.com. 9 May 2010. Retrieved 23 May 2012.

[57] "Under the Hood: Hadoop Distributed File system reliability with Namenode and Avatarnode". Facebook. Retrieved 13 September 2012.

[58] "Under the Hood: Scheduling MapReduce jobs more efficiently with Corona". Facebook. Retrieved 9 November 2012.

[59] "Altior's AltraSTAR – Hadoop Storage Accelerator and Optimizer Now Certified on CDH4 (Cloudera's Distribution Including Apache Hadoop Version 4)" (Press release). Eatontown, NJ: Altior Inc. 18 December 2012. Retrieved 30 October 2013.

[60] "Hadoop - Microsoft Azure". azure.microsoft.com. Retrieved 11 December 2017.

[61] "Hadoop". Azure.microsoft.com. Retrieved 22 July 2014.

[62] "Hadoop इनोवेशन की गति क्यों बढ़नी चाहिए?". Gigaom.com. 25 April 2011. Retrieved 17 October 2013.

[63] "Hadoop को परिभाषित करना". Wiki.apache.org. 30 March 2013. Retrieved 17 October 2013.

[64] "Defining Hadoop Compatibility: revisited". Mail-archives.apache.org. 10 May 2011. Retrieved 17 October 2013.

[65] "Apache Accumulo User Manual: Security". apache.org. Apache Software Foundation. Retrieved 3 December 2014.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

v t e The Apache Software Foundation
Top-level projects	Accumulo ActiveMQ Airflow Ambari Ant Aries Arrow Apache HTTP Server APR Avro Axis Axis2 Beam Bloodhound Brooklyn Buildr Calcite Camel CarbonData Cassandra Cayenne Chemistry CloudStack Cocoon Cordova CouchDB cTAKES CXF Derby Directory Drill Druid Empire-db Felix Flex Flink Flume FreeMarker Geronimo Giraph Gump Hadoop HBase Helix Hive Impala Jackrabbit James Jena Jini JMeter Kafka Kudu Kylin Lucene Mahout Maven MINA mod_perl MyFaces NiFi NetBeans Nutch OFBiz Oozie OpenEJB OpenJPA OpenNLP OрenOffice ORC PDFBox Parquet Phoenix POI Pig Pinot Pivot Qpid Roller RocketMQ Samza ServiceMix Shiro SINGA Sling Solr Spark Storm SpamAssassin Struts 1 Struts 2 Subversion Superset SystemDS Tapestry Thrift Tika Tomcat Trafodion Traffic Server UIMA Velocity Wicket Xalan Xerces XMLBeans Yetus ZooKeeper
Commons	BCEL BSF Daemon Jelly Logging
Incubator	MXNet NuttX Taverna
Other projects	Batik Chainsaw FOP Ivy Log4j
Attic	Abdera Apex AxKit Beehive Bluesky iBATIS C++ Standard Library Cactus Click Continuum Deltacloud Etch Excalibur Forrest Hama Harmony HiveMind Jakarta Lenya Marmotta ODE Shale Shindig Slide Sqoop Stanbol Tuscany Wave Wink XML
Licenses	Apache License
Category