कम्प्यूटेशनल रैम

कम्प्यूटेशनल रैम (सी-रैम) एक ही चिप पर एकीकृत केंद्रीय प्रसंस्करण इकाई के साथ रैंडम एक्सेस मेमोरी है। यह C-RAM को SIMD कंप्यूटर के रूप में उपयोग करने में सक्षम बनाता है। इसका उपयोग मेमोरी चिप के भीतर मेमोरी बैंडविड्थ का अधिक कुशलता से उपयोग करने के लिए भी किया जा सकता है। मेमोरी में गणना करने की सामान्य तकनीक को प्रोसेसिंग-इन-मेमोरी (पीआईएम) कहा जाता है।

अवलोकन

कम्प्यूटेशनल रैम का सबसे प्रभावशाली कार्यान्वयन बर्कले आईआरएएम प्रोजेक्ट से आया। वेक्टर IRAM (V-IRAM) DRAM को एक ही चिप पर एकीकृत वेक्टर प्रोसेसर के साथ जोड़ता है।^[1] पुन: कॉन्फ़िगर करने योग्य आर्किटेक्चर DRAM (RADram) एक ही चिप पर एकीकृत पुन: कॉन्फ़िगर करने योग्य कंप्यूटिंग FPGA तर्क तत्वों वाला DRAM है।^[2] SimpleScalar सिमुलेशन से पता चलता है कि RADram (पारंपरिक प्रोसेसर वाले सिस्टम में) पारंपरिक DRAM (समान प्रोसेसर वाले सिस्टम में) की तुलना में कुछ समस्याओं पर बेहतर प्रदर्शन के आदेश दे सकता है।

कुछ शर्मनाक समानांतर कम्प्यूटेशनल समस्याएं पहले से ही सीपीयू और डीआरएएम के बीच वॉन न्यूमैन बाधा द्वारा सीमित हैं। कुछ शोधकर्ताओं को उम्मीद है कि, समान कुल लागत के लिए, कम्प्यूटेशनल रैम से निर्मित एक मशीन इस प्रकार की समस्याओं पर पारंपरिक सामान्य-उद्देश्यीय कंप्यूटर की तुलना में अधिक तेजी से काम करेगी।^[3] 2011 तक, DRAM प्रक्रिया (कुछ परतें; उच्च कैपेसिटेंस के लिए अनुकूलित) और CPU प्रक्रिया (उच्च आवृत्ति के लिए अनुकूलित; आमतौर पर DRAM की तुलना में दोगुनी BEOL परतें; चूंकि प्रत्येक अतिरिक्त परत उपज कम करती है और विनिर्माण लागत बढ़ाती है, ऐसे चिप्स अपेक्षाकृत अधिक होते हैं) DRAM की तुलना में प्रति वर्ग मिलीमीटर महंगा) इतना अलग है कि कम्प्यूटेशनल RAM के तीन दृष्टिकोण हैं:

एक सीपीयू-अनुकूलित प्रक्रिया और एक उपकरण से शुरू करना जो बहुत अधिक एम्बेडेड एसआरएएम का उपयोग करता है, एम्बेडेड एसआरएएम को एम्बेडेड डीआरएएम (ईडीआरएएम) के साथ बदलने की अनुमति देने के लिए एक अतिरिक्त प्रक्रिया चरण जोड़ें (इसे प्रति वर्ग मिलीमीटर और भी महंगा बना दें), जिससे ≈3x क्षेत्र की बचत हो सके SRAM क्षेत्रों पर (और इस प्रकार प्रति चिप शुद्ध लागत कम हो जाएगी)।
एक अलग सीपीयू चिप और डीआरएएम चिप वाले सिस्टम से शुरू करके, डीआरएएम में छोटी मात्रा में कोप्रोसेसर कम्प्यूटेशनल क्षमता जोड़ें, डीआरएएम प्रक्रिया की सीमा के भीतर काम करें और चीजों को करने के लिए डीआरएएम में केवल थोड़ी मात्रा में क्षेत्र जोड़ें। यह अन्यथा सीपीयू और डीआरएएम के बीच संकीर्ण बाधा से धीमा हो जाएगा: मेमोरी के चयनित क्षेत्रों को शून्य-भरें, डेटा के बड़े ब्लॉक को एक स्थान से दूसरे स्थान पर कॉपी करें, पता लगाएं कि डेटा के कुछ ब्लॉक में दिया गया बाइट कहां (यदि कहीं है) होता है, आदि। परिणामी प्रणाली - अपरिवर्तित सीपीयू चिप, और स्मार्ट डीआरएएम चिप (ओं) - कम से कम मूल प्रणाली जितनी तेज़ है, और लागत में संभावित रूप से थोड़ी कम है। अतिरिक्त क्षेत्र की छोटी राशि की लागत महंगे परीक्षण समय में बचत से अधिक होने की उम्मीद है, क्योंकि अब DRAM से भरे वेफर के लिए एक स्मार्ट DRAM पर पर्याप्त कम्प्यूटेशनल क्षमता है जो समानांतर में आंतरिक रूप से अधिकांश परीक्षण कर सकती है। महंगे बाहरी स्वचालित परीक्षण उपकरण के साथ एक समय में एक DRAM चिप का पूरी तरह से परीक्षण करने के पारंपरिक दृष्टिकोण की तुलना में।^[1]* DRAM-अनुकूलित प्रक्रिया से शुरू करके, इसे CPU प्रक्रिया की तरह थोड़ा और बनाने के लिए प्रक्रिया में बदलाव करें, और उस प्रक्रिया की सीमाओं के भीतर एक (अपेक्षाकृत कम-आवृत्ति, लेकिन कम-शक्ति और बहुत उच्च बैंडविड्थ) सामान्य-उद्देश्यीय CPU का निर्माण करें। .

कुछ सीपीयू को DRAM प्रक्रिया प्रौद्योगिकी (विशेष रूप से सीपीयू के लिए अनुकूलित सीपीयू या लॉजिक प्रक्रिया प्रौद्योगिकी के बजाय) पर निर्मित करने के लिए डिज़ाइन किया गया है बर्कले IRAM प्रोजेक्ट, TOMI टेक्नोलॉजी^[4]^[5] और एटी एंड टी DSP1.

चूँकि एक मेमोरी बस टू ऑफ-चिप मेमोरी में ऑन-चिप मेमोरी बस की कैपेसिटेंस कई गुना होती है, अलग-अलग DRAM और CPU चिप्स वाले सिस्टम में समान कंप्यूटर प्रदर्शन के साथ IRAM सिस्टम के कम-शक्ति वाले इलेक्ट्रॉनिक्स कई गुना हो सकते हैं। ^[1]

क्योंकि कम्प्यूटेशनल DRAM के पारंपरिक DRAM की तुलना में अधिक गर्म चलने की उम्मीद है, और बढ़े हुए चिप तापमान के परिणामस्वरूप DRAM भंडारण कोशिकाओं से तेजी से चार्ज रिसाव होता है, कम्प्यूटेशनल DRAM के लिए अधिक बार स्मृति ताज़ा की आवश्यकता होने की उम्मीद है। ^[2]

प्रोसेसर-इन-/नियर-मेमोरी

प्रोसेसर-इन-/नियर-मेमोरी (पिनम) एक CPU (सीपीयू) को संदर्भित करता है जो आमतौर पर एक ही एकीकृत सर्किट पर स्मृति से कसकर जुड़ा होता है।

इस तरह से प्रोसेसिंग और मेमोरी घटकों को मर्ज करने का मुख्य लक्ष्य मेमोरी विलंबता को कम करना और बैंडविड्थ (कंप्यूटिंग) को बढ़ाना है। वैकल्पिक रूप से डेटा को स्थानांतरित करने के लिए आवश्यक दूरी को कम करने से सिस्टम की बिजली की आवश्यकताएं कम हो जाती हैं।^[6] वर्तमान प्रोसेसर में अधिकांश जटिलता (और इसलिए बिजली की खपत) मेमोरी स्टालों से बचने की रणनीतियों से उत्पन्न होती है।

उदाहरण

1980 के दशक में, FORTH को निष्पादित करने वाले एक छोटे CPU को PUSH और POP को बेहतर बनाने के लिए DRAM चिप में निर्मित किया गया था। FORTH एक स्टैक-उन्मुख प्रोग्रामिंग भाषा है और इससे इसकी दक्षता में सुधार हुआ है।

ट्रांसप्यूटर में चिप मेमोरी भी बड़ी थी, क्योंकि इसे 1980 के दशक की शुरुआत में बनाया गया था, जिससे यह अनिवार्य रूप से एक प्रोसेसर-इन-मेमोरी बन गया।

उल्लेखनीय पीआईएम परियोजनाओं में कैलिफोर्निया विश्वविद्यालय, बर्कले में बर्कले आईआरएएम परियोजना (आईआरएएम) शामिल है^[7] परियोजना और नोट्रे डेम विश्वविद्यालय पीआईएम^[8] कोशिश।

DRAM-आधारित PIM वर्गीकरण

DRAM-आधारित निकट-मेमोरी और इन-मेमोरी डिज़ाइन को चार समूहों में वर्गीकृत किया जा सकता है:

DIMM-स्तर के दृष्टिकोण प्रसंस्करण इकाइयों को मेमोरी चिप्स के पास रखते हैं। इन दृष्टिकोणों के लिए डेटा लेआउट में न्यूनतम/कोई बदलाव की आवश्यकता नहीं है (उदाहरण के लिए, गिरगिट,^[9] और RecNMP ^[10] ).
लॉजिक-लेयर-लेवल दृष्टिकोण 3डी स्टैक मेमोरी की लॉजिक लेयर में प्रसंस्करण इकाइयों को एम्बेड करता है और 3डी स्टैक मेमोरी की उच्च बैंडविड्थ से लाभ उठा सकता है (उदाहरण के लिए, TOP_PIM ^[11])
बैंक-स्तरीय दृष्टिकोण प्रत्येक बैंक के पास, मेमोरी परतों के अंदर प्रसंस्करण इकाइयों को रखता है। यूपीएमईएम और सैमसंग का पीआईएम ^[12] इन दृष्टिकोणों के उदाहरण हैं
सबअरे-स्तर दृष्टिकोण प्रत्येक सबरे के अंदर डेटा को संसाधित करता है। सबरे-स्तरीय दृष्टिकोण उच्चतम पहुंच समानता प्रदान करते हैं लेकिन अक्सर केवल सरल ऑपरेशन करते हैं, जैसे संपूर्ण मेमोरी पंक्ति पर बिटवाइज़ ऑपरेशन (उदाहरण के लिए, DRISA) ^[13]) या एकल-विश्व ALU (उदाहरण के लिए, फ़ुलक्रम) का उपयोग करके मेमोरी पंक्ति का अनुक्रमिक प्रसंस्करण ^[14])

यह भी देखें

मेमोरी के साथ कंप्यूटिंग
SynAPSE एक चिप में प्रोसेसिंग और मेमोरी को भी जोड़ता है।
इन-मेमोरी प्रोसेसिंग

संदर्भ

↑ ^1.0 ^1.1 ^1.2 Christoforos E. Kozyrakis, Stylianos Perissakis, David Patterson, Thomas Anderson, et al. "Scalable Processors in the Billion-Transistor Era: IRAM". IEEE Computer (magazine). 1997. says "Vector IRAM ... can operate as a parallel built-in self-test engine for the memory array, significantly reducing the DRAM testing time and the associated cost."
↑ ^2.0 ^2.1 Mark Oskin, Frederic T. Chong, and Timothy Sherwood. "Active Pages: A Computation Model for Intelligent Memory" Archived 2017-09-22 at the Wayback Machine. 1998.
↑ Daniel J. Bernstein. "Historical notes on mesh routing in NFS". 2002. "programming a computational RAM"
↑ "TOMI the milliwatt microprocessor"^{[permanent dead link]}
↑ Yong-Bin Kim and Tom W. Chen. "Assessing Merged DRAM/Logic Technology". 1998. "Archived copy" (PDF). Archived from the original (PDF) on 2011-07-25. Retrieved 2011-11-27.{{cite web}}: CS1 maint: archived copy as title (link) [1]
↑ "जाइरफाल्कन ने एआई चिप की शिपिंग शुरू की". electronics-lab. 2018-10-10. Retrieved 5 December 2018.
↑ IRAM
↑ "पीआईएम". Archived from the original on 2015-11-09. Retrieved 2015-05-26.
↑ Hadi Asghari-Moghaddam, et al., "Chameleon: Versatile and practical near-DRAM acceleration architecture for large memory systems".
↑ Liu Ke, et al., "RecNMP: Accelerating Personalized Recommendation with Near-Memory Processing".
↑ डोंगपिंग, झांग, एट अल।, टॉप-पीआईएम: मेमोरी में थ्रूपुट-उन्मुख प्रोग्रामयोग्य प्रसंस्करण।
↑ Sukhan Lee, et al., "Hardware Architecture and Software Stack for PIM Based on Commercial DRAM Technology : Industrial Product".
↑ Shuangchen Li, et al.,"DRISA: A dram-based reconfigurable in-situ accelerator".
↑ Marzieh Lenjani, et al., "Fulcrum: a Simplified Control and Access Mechanism toward Flexible and Practical In-situ Accelerators".

ग्रन्थसूची

Duncan Elliott, Michael Stumm, W. Martin Snelgrove, Christian Cojocaru, Robert McKenzie, "Computational RAM: Implementing Processors in Memory", IEEE Design and Test of Computers, vol. 16, no. 1, pp. 32–41, Jan–Mar 1999. doi:10.1109/54.748803.

[kozyrakis-1] 1.0 ^1.1 ^1.2 Christoforos E. Kozyrakis, Stylianos Perissakis, David Patterson, Thomas Anderson, et al. "Scalable Processors in the Billion-Transistor Era: IRAM". IEEE Computer (magazine). 1997. says "Vector IRAM ... can operate as a parallel built-in self-test engine for the memory array, significantly reducing the DRAM testing time and the associated cost."

[oskin-2] 2.0 ^2.1 Mark Oskin, Frederic T. Chong, and Timothy Sherwood. "Active Pages: A Computation Model for Intelligent Memory" Archived 2017-09-22 at the Wayback Machine. 1998.

[3] Daniel J. Bernstein. "Historical notes on mesh routing in NFS". 2002. "programming a computational RAM"

[4] "TOMI the milliwatt microprocessor"^{[permanent dead link]}

[5] Yong-Bin Kim and Tom W. Chen. "Assessing Merged DRAM/Logic Technology". 1998. "Archived copy" (PDF). Archived from the original (PDF) on 2011-07-25. Retrieved 2011-11-27.{{cite web}}: CS1 maint: archived copy as title (link) [1]

[6] "जाइरफाल्कन ने एआई चिप की शिपिंग शुरू की". electronics-lab. 2018-10-10. Retrieved 5 December 2018.

[7] IRAM

[8] "पीआईएम". Archived from the original on 2015-11-09. Retrieved 2015-05-26.

[Chameleon-9] Hadi Asghari-Moghaddam, et al., "Chameleon: Versatile and practical near-DRAM acceleration architecture for large memory systems".

[RecNMP-10] Liu Ke, et al., "RecNMP: Accelerating Personalized Recommendation with Near-Memory Processing".

[TOP_PIM-11] डोंगपिंग, झांग, एट अल।, टॉप-पीआईएम: मेमोरी में थ्रूपुट-उन्मुख प्रोग्रामयोग्य प्रसंस्करण।

[SAMSUGPIM-12] Sukhan Lee, et al., "Hardware Architecture and Software Stack for PIM Based on Commercial DRAM Technology : Industrial Product".

[DRISA-13] Shuangchen Li, et al.,"DRISA: A dram-based reconfigurable in-situ accelerator".

[Fulcrum-14] Marzieh Lenjani, et al., "Fulcrum: a Simplified Control and Access Mechanism toward Flexible and Practical In-situ Accelerators".

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]