श्रवण दृश्य विश्लेषण

From alpha
Jump to navigation Jump to search

धारणा और मनोभौतिकी में, श्रवण दृश्य विश्लेषण (एएसए) श्रवण धारणा के आधार के लिए एक प्रस्तावित मॉडल है। इसे उस प्रक्रिया के रूप में समझा जाता है जिसके द्वारा मानव श्रवण प्रणाली ध्वनि को अवधारणात्मक रूप से सार्थक तत्वों में व्यवस्थित करती है। यह शब्द मनोवैज्ञानिक अल्बर्ट ब्रेगमैन द्वारा गढ़ा गया था।[1] मशीन धारणा में संबंधित अवधारणा कम्प्यूटेशनल श्रवण दृश्य विश्लेषण (CASA) है, जो सिग्नल पृथक्करण और अंधा संकेत पृथक्करण से निकटता से संबंधित है।

ब्रेगमैन के एएसए मॉडल के तीन प्रमुख पहलू हैं: विभाजन, एकीकरण और पृथक्करण।

पृष्ठभूमि

ध्वनि कान तक पहुंचती है और कान का पर्दा पूरा कांपने लगता है। इस सिग्नल का विश्लेषण (किसी तरह से) करना होगा। ब्रेगमैन के एएसए मॉडल का प्रस्ताव है कि ध्वनियों को या तो एकीकृत रूप में सुना जाएगा (संपूर्ण रूप से सुना जाएगा - संगीत में सामंजस्य की तरह), या अलग-अलग घटकों में अलग किया जाएगा (जो काउंटरपॉइंट की ओर जाता है)।[2] उदाहरण के लिए, एक घंटी को 'एकल' ध्वनि (एकीकृत) के रूप में सुना जा सकता है, या कुछ लोग अलग-अलग घटकों को सुनने में सक्षम हैं - वे ध्वनि को अलग करने में सक्षम हैं। यह कॉर्ड के साथ किया जा सकता है जहां इसे 'रंग' के रूप में, या व्यक्तिगत नोट्स के रूप में सुना जा सकता है। प्राकृतिक ध्वनियाँ, जैसे भाषण, संगीतमय स्वर, या सड़क पर गुजरने वाली कारें, कई आवृत्तियों से बनी होती हैं, जो ध्वनियों की अनुमानित गुणवत्ता (जैसे समय) में योगदान करती हैं। जब दो या दो से अधिक प्राकृतिक ध्वनियाँ एक साथ घटित होती हैं, तो एक साथ सक्रिय ध्वनियों के सभी घटक श्रोताओं के कानों द्वारा एक ही समय में प्राप्त होते हैं, या समय में ओवरलैप हो जाते हैं। यह उनके श्रवण तंत्र को एक समस्या के साथ प्रस्तुत करता है: ध्वनि के किन हिस्सों को एक साथ समूहीकृत किया जाना चाहिए और एक ही स्रोत या वस्तु के हिस्सों के रूप में माना जाना चाहिए? उन्हें गलत तरीके से समूहित करने से श्रोता को मूल घटकों के गलत संयोजनों से निर्मित गैर-मौजूद ध्वनियाँ सुनाई दे सकती हैं।

कई परिस्थितियों में अलग-अलग तत्वों को समय के साथ एक साथ जोड़ा जा सकता है, जिससे एक श्रवण धारा उत्पन्न होती है। श्रवण स्ट्रीमिंग की इस क्षमता को तथाकथित कॉकटेल पार्टी प्रभाव द्वारा प्रदर्शित किया जा सकता है। एक बिंदु तक, एक ही समय में या पृष्ठभूमि ध्वनियों के साथ बोलने वाली कई आवाजों के साथ, कोई व्यक्ति किसी विशेष आवाज का अनुसरण करने में सक्षम होता है, भले ही अन्य आवाजें और पृष्ठभूमि ध्वनियां मौजूद हों।[3] इस उदाहरण में, कान इस आवाज़ को अन्य ध्वनियों (जो एकीकृत हैं) से अलग कर रहा है, और मन इन अलग-अलग ध्वनियों को श्रवण धारा में प्रवाहित करता है। यह एक ऐसा कौशल है जो संगीतकारों, विशेष रूप से कंडक्टरों द्वारा अत्यधिक विकसित किया जाता है जो एक ही समय में एक, दो, तीन या अधिक उपकरणों को सुनने में सक्षम होते हैं (उन्हें अलग करते हैं), और श्रवण स्ट्रीमिंग के माध्यम से प्रत्येक को एक स्वतंत्र लाइन के रूप में अनुसरण करते हैं।[citation needed].

समूहीकरण और धाराएँ

एएसए के अंतर्गत कई समूहीकरण सिद्धांत प्रतीत होते हैं, जिनमें से कई गेस्टाल्ट मनोविज्ञान के स्कूल द्वारा खोजे गए अवधारणात्मक संगठन के सिद्धांतों से संबंधित हैं। इन्हें मोटे तौर पर अनुक्रमिक समूहीकरण तंत्र (वे जो समय के साथ संचालित होते हैं) और एक साथ समूहीकरण तंत्र (वे जो आवृत्ति के पार संचालित होते हैं) में वर्गीकृत किया जा सकता है:

  • एक साथ समूहीकरण में त्रुटियां उन ध्वनियों के मिश्रण का कारण बन सकती हैं जिन्हें अलग-अलग सुना जाना चाहिए, मिश्रित ध्वनियों में वास्तव में प्राप्त किसी भी ध्वनि के लिए अलग-अलग अनुमानित गुण (जैसे पिच या टिम्ब्रे) होते हैं। उदाहरण के लिए, एक साथ प्रस्तुत किए गए दो स्वर अलग-अलग होने पर पहचाने जाने योग्य नहीं हो सकते हैं।[4]
  • अनुक्रमिक समूहीकरण में त्रुटियां, उदाहरण के लिए, दो अलग-अलग आवाज़ों से उत्पन्न अक्षरों से बने शब्द को सुनने के लिए प्रेरित कर सकती हैं।[5][6]

पृथक्करण मुख्य रूप से अवधारणात्मक संकेतों पर आधारित हो सकता है या सीखे गए पैटर्न (स्कीमा-आधारित) की पहचान पर निर्भर हो सकता है।

एएसए का काम व्यक्तिगत ध्वनियों का सटीक मानसिक प्रतिनिधित्व बनाने के लिए आने वाली संवेदी सूचनाओं को समूहीकृत करना है। जब ध्वनियों को श्रवण प्रणाली द्वारा एक कथित अनुक्रम में समूहीकृत किया जाता है, जो अन्य सह-घटित अनुक्रमों से अलग होता है, तो इनमें से प्रत्येक कथित अनुक्रम को श्रवण धारा कहा जाता है। वास्तविक दुनिया में, यदि एएसए सफल होता है, तो एक धारा एक विशिष्ट पर्यावरणीय ध्वनि स्रोत से मेल खाती है जो एक पैटर्न उत्पन्न करती है जो समय के साथ बनी रहती है, जैसे कि एक व्यक्ति बात कर रहा है, एक पियानो बजा रहा है, या एक कुत्ता भौंक रहा है। हालाँकि, प्रयोगशाला में, ध्वनियों के ध्वनिक मापदंडों में हेरफेर करके, एक या अधिक श्रवण धाराओं की धारणा को प्रेरित करना संभव है।

श्रवण दृश्य विश्लेषण में स्ट्रीमिंग

इसका एक उदाहरण मधुर विखंडन की घटना है, जिसे धारा पृथक्करण भी कहा जाता है।[7] यदि दो ध्वनियाँ, ए और बी, समय के साथ तेजी से बदलती हैं, तो कुछ सेकंड के बाद धारणा विभाजित होती प्रतीत हो सकती है, जिससे श्रोता ध्वनि की एक के बजाय दो धाराओं को सुनता है, प्रत्येक धारा दो ध्वनियों में से एक की पुनरावृत्ति के अनुरूप होती है, उदाहरण के लिए, ए-ए-ए-ए-, आदि के साथ बी-बी-बी-बी-, आदि। अलग-अलग धाराओं में पृथक्करण की प्रवृत्ति ध्वनि ए और बी के ध्वनिक गुणों में अंतर के पक्ष में है। पृथक्करण को बढ़ावा देने के लिए शास्त्रीय रूप से दिखाए गए अंतरों में आवृत्ति के अंतर शामिल हैं (के लिए) शुद्ध स्वर), मौलिक आवृत्ति (संगीतमय स्वरों के लिए), आवृत्ति संरचना, स्रोत स्थान। लेकिन यह सुझाव दिया गया है कि दो अनुक्रमों के बीच किसी भी व्यवस्थित अवधारणात्मक अंतर से स्ट्रीमिंग हो सकती है,[8] बशर्ते अनुक्रम की गति पर्याप्त हो।

इस स्ट्रीमिंग और आवृत्ति पृथक्करण और गति के महत्व को दर्शाने वाला एक इंटरैक्टिव वेब पेज यहां पाया जा सकता है।

एंड्रानिक टैंगियन का तर्क है कि समूहीकरण की घटना न केवल गतिशीलता में बल्कि स्थैतिक में भी देखी जाती है। उदाहरण के लिए, एक तार की अनुभूति भौतिक कारणता के बजाय ध्वनिक डेटा प्रतिनिधित्व का प्रभाव है (वास्तव में, एक एकल भौतिक शरीर, लाउडस्पीकर झिल्ली की तरह, कई स्वरों का प्रभाव पैदा कर सकता है, और कई भौतिक शरीर, जैसे अंग पाइप के रूप में ट्यून किए जाते हैं) एक राग, एक स्वर का प्रभाव उत्पन्न कर सकता है)। संगीत ध्वनिकी के दृष्टिकोण से, कॉर्ड एक विशेष प्रकार की ध्वनि है जिसका स्पेक्ट्रम - आंशिक स्वरों का सेट (साइनसॉइडल दोलन) - आवृत्ति अक्ष के साथ एकल टोन स्पेक्ट्रम के विस्थापन द्वारा उत्पन्न माना जा सकता है। दूसरे शब्दों में, कॉर्ड की अंतराल संरचना एक टोन द्वारा खींची गई एक ध्वनिक रूपरेखा है (गतिकी में, पॉलीफोनिक आवाज़ें टोन स्पेक्ट्रा के प्रक्षेपवक्र हैं)। यह सूचना सिद्धांत द्वारा उचित है। यदि जेनरेटिव टोन हार्मोनिक है (= इसमें पिच की प्रमुखता है) तो ऐसा प्रतिनिधित्व अद्वितीय साबित होता है और इसके लिए कम से कम मेमोरी की आवश्यकता होती है, यानी Kolmogorov के अर्थ में सबसे कम जटिल है। चूँकि यह अन्य सभी अभ्यावेदन सरल है, जिसमें वह भी शामिल है जहाँ तार को एक जटिल ध्वनि के रूप में माना जाता है, तार को एक यौगिक के रूप में माना जाता है। यदि जेनरेटिव टोन घंटी जैसी ध्वनि की तरह इनहार्मोनिक है, तो अंतराल संरचना अभी भी टोन स्पेक्ट्रम के विस्थापन के रूप में पहचानी जा सकती है, जिसकी पिच भी ज्ञानी नहीं हो सकती है। कॉर्ड की यह इष्टतम प्रतिनिधित्व-आधारित परिभाषा, अन्य बातों के अलावा, पूर्ण पिच श्रवण पर अंतराल श्रवण की प्रबलता को बताती है।[9][10]


प्रायोगिक आधार

कई प्रयोगों ने ध्वनि के अधिक जटिल पैटर्न के पृथक्करण का अध्ययन किया है, जैसे कि विभिन्न पिचों के उच्च नोट्स का अनुक्रम, जो निम्न स्वरों के साथ जुड़े हुए हैं। ऐसे अनुक्रमों में, सह-घटित ध्वनियों को अलग-अलग धाराओं में अलग करने से उन्हें सुनने के तरीके पर गहरा प्रभाव पड़ता है। किसी राग की धारणा अधिक आसानी से बनती है यदि उसके सभी स्वर एक ही श्रवण धारा में आते हैं। हम उन स्वरों के बीच की लय को सुनते हैं जो एक ही धारा में हैं, उन स्वरों को छोड़कर जो अन्य धाराओं में हैं। अलग-अलग स्ट्रीम के नोट्स की तुलना में एक ही स्ट्रीम के नोट्स के बीच समय का निर्णय अधिक सटीक होता है। यहां तक ​​कि अनुमानित स्थानिक स्थान और कथित ज़ोर भी अनुक्रमिक समूहन से प्रभावित हो सकते हैं। जबकि इस विषय पर प्रारंभिक शोध मानव वयस्कों पर किया गया था, हाल के अध्ययनों से पता चला है कि कुछ एएसए क्षमताएं नवजात शिशुओं में मौजूद होती हैं, जिससे पता चलता है कि वे अनुभव के माध्यम से सीखने के बजाय अंतर्निहित हैं। अन्य शोधों से पता चला है कि गैर-मानव जानवर भी एएसए प्रदर्शित करते हैं। वर्तमान में, वैज्ञानिक एएसए के अंतर्निहित तंत्र की खोज के लिए सेरेब्रल कॉर्टेक्स के श्रवण क्षेत्रों में न्यूरॉन्स की गतिविधि का अध्ययन कर रहे हैं।

यह भी देखें

संदर्भ

  1. Bregman, A. S. (1990). Auditory scene analysis: The Perceptual Organization of Sound. Cambridge, MA: MIT Press. ISBN 9780262022972.
  2. Wright, James and Albert S. Bregman (1987). "श्रवण धारा पृथक्करण और पॉलीफोनिक संगीत में असंगति का नियंत्रण।". Contemporary Music Review. 2 (1): 63-92.
  3. Miller, G. A. (1947). "भाषण का मुखौटा". Psychological Bulletin. 44 (2): 105–129. doi:10.1037/h0055960. PMID 20288932.
  4. Assmann, P. F.; Summerfield, Q. (August 1990). "Modeling the perception of concurrent vowels: Vowels with different fundamental frequencies". The Journal of the Acoustical Society of America. 88 (2): 680–697. Bibcode:1990ASAJ...88..680A. doi:10.1121/1.399772. PMID 2212292.
  5. Gaudrain, E.; Grimault, N.; Healy, E. W.; Béra, J.-C. (2007). "स्वर अनुक्रमों के अवधारणात्मक पृथक्करण पर वर्णक्रमीय धब्बा का प्रभाव". Hearing Research. 231 (1–2): 32–41. doi:10.1016/j.heares.2007.05.001. PMC 2128787. PMID 17597319.
  6. Billig, A. J.; Davis, M. H.; Deeks, J. M.; Monstrey, J.; Carlyon, R. P. (2013). "श्रवण स्ट्रीमिंग पर शाब्दिक प्रभाव". Current Biology. 23 (16): 1585–1589. doi:10.1016/j.cub.2013.06.042. PMC 3748342. PMID 23891107.
  7. van Noorden, L. P. A. S. (1975). स्वर अनुक्रमों की धारणा में अस्थायी सुसंगतता (PDF) (PhD). The Netherlands: Eindhoven University of Technology. Retrieved 10 March 2018.
  8. Moore, B. C. J.; Gockel, H. E. (2012). "श्रवण धारा निर्माण के गुण". Philosophical Transactions of the Royal Society B: Biological Sciences. 367 (1591): 919–931. doi:10.1098/rstb.2011.0355. PMC 3282308. PMID 22371614.
  9. Tanguiane (Tangian), Andranick (1993). कृत्रिम धारणा और संगीत पहचान. Lecture Notes in Artificial Intelligence. Vol. 746. Berlin-Heidelberg: Springer. ISBN 978-3-540-57394-4.
  10. Tanguiane (Tanguiane), Andranick (1994). "धारणा की सहसंबंधता का एक सिद्धांत और संगीत पहचान के लिए इसका अनुप्रयोग". Music Perception. 11 (4): 465–502. doi:10.2307/40285634.