पाठ फ़ाइल

From alpha
Jump to navigation Jump to search
Text file
Text-txt.svg
Filename extension
.txt
Internet media type
text/plain
Type codeTEXT
Uniform Type Identifier (UTI)public.plain-text
UTI conformationpublic.text
Type of formatDocument file format, Generic container format

एक टेक्स्ट फ़ाइल (कभी-कभी टेक्स्टफ़ाइल लिखी जाती है; एक पुराना वैकल्पिक नाम फ़्लैटफ़ाइल है) एक प्रकार की कम्प्यूटर फाइल है जिसे इलेक्ट्रॉनिक पाठ की पंक्ति (टेक्स्ट फ़ाइल) के अनुक्रम के रूप में संरचित किया जाता है। एक टेक्स्ट फ़ाइल कंप्यूटर फ़ाइल सिस्टम के भीतर डेटा भंडारण मौजूद होती है। सीपी/एम और एमएस-डॉस जैसे ऑपरेटिंग सिस्टम में, जहां ऑपरेटिंग सिस्टम बाइट्स में फ़ाइल आकार का ट्रैक नहीं रखता है, टेक्स्ट फ़ाइल के अंत को एक या अधिक विशेष वर्ण रखकर दर्शाया जाता है, जिसे एंड-ऑफ़ के रूप में जाना जाता है। -फ़ाइल (ईओएफ) मार्कर, टेक्स्ट फ़ाइल में अंतिम पंक्ति (पाठ फ़ाइल) पैडिंग के रूप में। आधुनिक ऑपरेटिंग सिस्टम जैसे कि माइक्रोसॉफ़्ट विंडोज़ और यूनिक्स जैसे सिस्टम पर, टेक्स्ट फ़ाइलों में कोई विशेष ईओएफ वर्ण नहीं होता है, क्योंकि उन ऑपरेटिंग सिस्टम पर फ़ाइल सिस्टम बाइट्स में फ़ाइल आकार का ट्रैक रखते हैं। अधिकांश टेक्स्ट फ़ाइलों में नई पंक्ति |एंड-ऑफ़-लाइन डिलीमीटर की आवश्यकता होती है, जो ऑपरेटिंग सिस्टम के आधार पर कुछ अलग तरीकों से किया जाता है। रिकॉर्ड-उन्मुख फ़ाइल सिस्टम सिस्टम वाले कुछ ऑपरेटिंग सिस्टम | रिकॉर्ड-ओरिएंटेड फ़ाइल सिस्टम नई लाइन डिलीमीटर का उपयोग नहीं कर सकते हैं और मुख्य रूप सादे पाठ फ़ाइलों को निश्चित या परिवर्तनीय लंबाई रिकॉर्ड के रूप में अलग की गई लाइनों के साथ संग्रहीत करेंगे।

टेक्स्ट फ़ाइल एक प्रकार के कंटेनर को संदर्भित करती है, जबकि सादा टेक्स्ट एक प्रकार की सामग्री को संदर्भित करता है।

विवरण के सामान्य स्तर पर, कंप्यूटर फ़ाइलें दो प्रकार की होती हैं: टेक्स्ट फ़ाइलें और बाइनरी फ़ाइलें।[1]


डेटा भंडारण

अल्पविराम से अलग किए गए मान-स्वरूपित पाठ फ़ाइल का एक शैलीबद्ध प्रतिष्ठित चित्रण।

उनकी सरलता के कारण, टेक्स्ट फ़ाइलें आमतौर पर सूचना के कंप्यूटर डेटा भंडारण के लिए उपयोग की जाती हैं। वे अन्य फ़ाइल स्वरूपों के साथ आने वाली कुछ समस्याओं से बचते हैं, जैसे endianness, पैडिंग बाइट्स, या किसी शब्द (कंप्यूटर वास्तुकला) में बाइट्स की संख्या में अंतर। इसके अलावा, जब किसी टेक्स्ट फ़ाइल में डेटा भ्रष्टाचार होता है, तो शेष सामग्री को पुनर्प्राप्त करना और प्रसंस्करण जारी रखना अक्सर आसान होता है। टेक्स्ट फ़ाइलों का एक नुकसान यह है कि उनमें आम तौर पर कम एन्ट्रॉपी (सूचना सिद्धांत) होती है, जिसका अर्थ है कि जानकारी आवश्यक से अधिक संग्रहण रखती है।

एक साधारण पाठ फ़ाइल को व्याख्या में पाठक की सहायता के लिए किसी अतिरिक्त मेटा डेटा (इसके चरित्र सेट के ज्ञान के अलावा) की आवश्यकता नहीं हो सकती है। एक टेक्स्ट फ़ाइल में बिल्कुल भी डेटा नहीं हो सकता है, जो कि शून्य-बाइट फ़ाइल का मामला है।

एन्कोडिंग

ASCII अंग्रेजी भाषा की पाठ फ़ाइलों के लिए वर्ण सेटों का सबसे सामान्य संगत उपसमूह है, और आमतौर पर कई स्थितियों में इसे डिफ़ॉल्ट फ़ाइल स्वरूप माना जाता है। इसमें अमेरिकी अंग्रेजी शामिल है, लेकिन ब्रिटिश पाउंड चिह्न, यूरो चिह्न, या अंग्रेजी के बाहर उपयोग किए जाने वाले वर्णों के लिए, एक समृद्ध वर्ण सेट का उपयोग किया जाना चाहिए। कई प्रणालियों में, इसे उस कंप्यूटर पर डिफ़ॉल्ट लोकेल (कंप्यूटर सॉफ़्टवेयर) सेटिंग के आधार पर चुना जाता है जिस पर इसे पढ़ा जाता है। UTF-8 से पहले, यह पारंपरिक रूप से यूरोपीय भाषाओं के लिए एकल-बाइट एन्कोडिंग (जैसे ISO-8859-1 से ISO-8859-16 तक) और एशियाई भाषाओं के लिए विस्तृत वर्ण एन्कोडिंग थी।

क्योंकि एनकोडिंग में आवश्यक रूप से केवल पात्रों का एक सीमित भंडार होता है, अक्सर बहुत छोटा, कई केवल मानव भाषाओं के एक सीमित उपसमूह में पाठ का प्रतिनिधित्व करने के लिए उपयोग करने योग्य होते हैं। यूनिकोड सभी ज्ञात भाषाओं का प्रतिनिधित्व करने के लिए एक सामान्य मानक बनाने का एक प्रयास है, और अधिकांश ज्ञात वर्ण सेट बहुत बड़े यूनिकोड वर्ण सेट के सबसेट हैं। हालाँकि यूनिकोड के लिए विस्तृत चरित्र एनकोडिंग उपलब्ध हैं, सबसे आम यूटीएफ-8 है, जिसका ASCII के साथ बैकवर्ड-संगत होने का लाभ है; अर्थात्, प्रत्येक ASCII टेक्स्ट फ़ाइल समान अर्थ वाली एक UTF-8 टेक्स्ट फ़ाइल भी है। UTF-8 का यह भी फायदा है कि UTF-8#फ़ॉलबैक और ऑटो-डिटेक्शन|यह आसानी से ऑटो-डिटेक्टेबल है। इस प्रकार, UTF-8 सक्षम सॉफ़्टवेयर का एक सामान्य ऑपरेटिंग मोड, अज्ञात एन्कोडिंग की फ़ाइलें खोलते समय, पहले UTF-8 को आज़माना है और स्थानीय निर्भर विरासत एन्कोडिंग पर वापस आना है जब यह निश्चित रूप से UTF-8 नहीं है।

प्रारूप

अधिकांश ऑपरेटिंग सिस्टम पर, टेक्स्ट फ़ाइल नाम एक फ़ाइल प्रारूप को संदर्भित करता है जो बहुत कम प्रारूपण के साथ केवल सादे पाठ सामग्री की अनुमति देता है (उदाहरण के लिए, कोई 'जोर (टाइपोग्राफी)' या इटैलिक प्रकार प्रकार नहीं)। ऐसी फ़ाइलों को पाठ टर्मिनल ों पर या साधारण टेक्स्ट संपादकों में देखा और संपादित किया जा सकता है। टेक्स्ट फ़ाइलें आमतौर पर MIME प्रकार की होती हैं text/plain, आमतौर पर एन्कोडिंग का संकेत देने वाली अतिरिक्त जानकारी के साथ।

माइक्रोसॉफ्ट विंडोज़ टेक्स्ट फ़ाइलें

MS-DOS और Microsoft Windows एक सामान्य टेक्स्ट फ़ाइल स्वरूप का उपयोग करते हैं, जिसमें टेक्स्ट की प्रत्येक पंक्ति को दो-वर्ण संयोजन द्वारा अलग किया जाता है: कैरिज रिटर्न (CR) और रेखा भरण (LF)। पाठ की अंतिम पंक्ति को सीआर-एलएफ मार्कर के साथ समाप्त न किया जाना आम बात है, और कई पाठ संपादक (नोटपैड (विंडोज़) सहित) स्वचालित रूप से अंतिम पंक्ति में एक सम्मिलित नहीं करते हैं।

माइक्रोसॉफ्ट विंडोज ऑपरेटिंग सिस्टम पर, एक फ़ाइल को टेक्स्ट फ़ाइल के रूप में माना जाता है यदि फ़ाइल के नाम का प्रत्यय (फ़ाइल नाम एक्सटेंशन) है .txt. हालाँकि, कई अन्य प्रत्ययों का उपयोग विशिष्ट उद्देश्यों वाली टेक्स्ट फ़ाइलों के लिए किया जाता है। उदाहरण के लिए, कंप्यूटर प्रोग्राम के लिए स्रोत कोड आमतौर पर टेक्स्ट फ़ाइलों में रखा जाता है जिनमें फ़ाइल नाम प्रत्यय होते हैं जो उस प्रोग्रामिंग भाषा को दर्शाते हैं जिसमें स्रोत लिखा गया है।

अधिकांश Microsoft Windows टेक्स्ट फ़ाइलें ANSI, OEM, यूनिकोड या UTF-8 एन्कोडिंग का उपयोग करती हैं। जिसे Microsoft Windows शब्दावली ANSI एन्कोडिंग कहती है, वह आमतौर पर सिंगल-बाइट ISO/IEC 8859 एन्कोडिंग होती है (यानी Microsoft नोटपैड मेनू में ANSI वास्तव में सिस्टम कोड पेज, गैर-यूनिकोड, लीगेसी एन्कोडिंग है), चीनी, जापानी और कोरियाई जैसे स्थानों को छोड़कर जिसके लिए डबल-बाइट कैरेक्टर सेट की आवश्यकता होती है। यूनिकोड में परिवर्तन से पहले, एएनएसआई एन्कोडिंग को पारंपरिक रूप से माइक्रोसॉफ्ट विंडोज के भीतर डिफ़ॉल्ट सिस्टम लोकेल के रूप में उपयोग किया जाता था। इसके विपरीत, ओईएम एनकोडिंग, जिसे डॉस कोड पेज के रूप में भी जाना जाता है, को आईबीएम द्वारा मूल आईबीएम पीसी टेक्स्ट मोड डिस्प्ले सिस्टम में उपयोग के लिए परिभाषित किया गया था। इनमें आमतौर पर ग्राफिकल और बॉक्स-ड्राइंग चरित्र | लाइन-ड्राइंग कैरेक्टर शामिल होते हैं जो डॉस अनुप्रयोगों में आम हैं। यूनिकोड-एन्कोडेड माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइलों में यूटीएफ-16 यूनिकोड ट्रांसफॉर्मेशन फॉर्मेट में टेक्स्ट होता है। ऐसी फ़ाइलें आम तौर पर बाइट ऑर्डर चिह्न (बीओएम) से शुरू होती हैं, जो फ़ाइल सामग्री की अंतहीनता का संचार करती है। हालाँकि UTF-8 एंडियननेस समस्याओं से ग्रस्त नहीं है, कई Microsoft Windows प्रोग्राम (यानी नोटपैड) UTF-8-एन्कोडेड फ़ाइलों की सामग्री को BOM के साथ जोड़ते हैं,[2] UTF-8 एन्कोडिंग को अन्य 8-बिट एन्कोडिंग से अलग करना।[3]


यूनिक्स पाठ फ़ाइलें

यूनिक्स जैसे ऑपरेटिंग सिस्टम पर, टेक्स्ट फ़ाइल प्रारूप का सटीक वर्णन किया गया है: POSIX एक टेक्स्ट फ़ाइल को एक फ़ाइल के रूप में परिभाषित करता है जिसमें शून्य या अधिक पंक्तियों में व्यवस्थित वर्ण होते हैं,[4] जहां रेखाएं शून्य या अधिक गैर-न्यूलाइन वर्णों के साथ-साथ एक समाप्ति न्यूलाइन वर्ण का अनुक्रम हैं,[5] सामान्यतः एलएफ.

इसके अतिरिक्त, POSIX परिभाषित करता हैprintable file एक टेक्स्ट फ़ाइल के रूप में जिसके अक्षर क्षेत्रीय नियमों के अनुसार मुद्रण योग्य या स्पेस या बैकस्पेस हैं। इसमें अधिकांश नियंत्रण वर्ण शामिल नहीं हैं, जो मुद्रण योग्य नहीं हैं।[6]


एप्पल मैकिंटोश टेक्स्ट फ़ाइलें

MacOS के आगमन से पहले, क्लासिक Mac OS सिस्टम एक फ़ाइल की सामग्री (डेटा फ़ोर्क) को एक टेक्स्ट फ़ाइल मानता था, जब इसके संसाधन फ़ोर्क ने संकेत दिया था कि फ़ाइल का प्रकार TEXT था।[7] क्लासिक Mac OS टेक्स्ट फ़ाइलों की पंक्तियाँ CR वर्णों के साथ समाप्त हो जाती हैं।[8] यूनिक्स जैसी प्रणाली होने के कारण, macOS टेक्स्ट फ़ाइलों के लिए यूनिक्स प्रारूप का उपयोग करता है।[8]MacOS में टेक्स्ट फ़ाइलों के लिए उपयोग किया जाने वाला समान प्रकार पहचानकर्ता (UTI) public.plain-text है; अतिरिक्त, अधिक विशिष्ट यूटीआई हैं: यूटीएफ-8-एन्कोडेड टेक्स्ट के लिए public.utf8-plain-text, utf-16-एन्कोडेड टेक्स्ट के लिए public.utf16-extern-plain-text और public.utf16-plain-text और com.apple क्लासिक मैक ओएस टेक्स्ट फ़ाइलों के लिए .traditional-mac-plain-text।[7]


प्रतिपादन

जब किसी पाठ संपादक द्वारा खोला जाता है, तो मानव-पठनीय सामग्री उपयोगकर्ता के सामने प्रस्तुत की जाती है। इसमें अक्सर उपयोगकर्ता को दिखाई देने वाली फ़ाइल का सादा पाठ शामिल होता है। एप्लिकेशन के आधार पर, नियंत्रण कोड या तो संपादक द्वारा क्रियान्वित किए गए शाब्दिक निर्देशों के रूप में प्रस्तुत किए जा सकते हैं, या दृश्यमान एस्केप वर्णों के रूप में प्रस्तुत किए जा सकते हैं जिन्हें सादे पाठ के रूप में संपादित किया जा सकता है। यद्यपि किसी पाठ फ़ाइल में सादा पाठ हो सकता है, फ़ाइल के भीतर नियंत्रण वर्ण (विशेष रूप से फ़ाइल के अंत का वर्ण) किसी विशेष विधि द्वारा सादे पाठ को अनदेखा कर सकते हैं।

यह भी देखें

नोट्स और संदर्भ

  1. Lewis, John (2006). कंप्यूटर विज्ञान प्रकाशित. Jones and Bartlett. ISBN 0-7637-4149-3.
  2. "बाइट ऑर्डर मार्क्स का उपयोग करना". Internationalization for Windows Applications. Microsoft. Jan 7, 2021. Archived from the original on Feb 21, 2023. Retrieved 2022-04-21.
  3. Freytag, Asmus (2015-12-18). "FAQ – UTF-8, UTF-16, UTF-32 & BOM". The Unicode Consortium. Retrieved 2016-05-30. Yes, UTF-8 can contain a BOM. However, it makes no difference as to the endianness of the byte stream. UTF-8 always has the same byte order. An initial BOM is only used as a signature — an indication that an otherwise unmarked text file is in UTF-8. Note that some recipients of UTF-8 encoded data do not expect a BOM. Where UTF-8 is used transparently in 8-bit environments, the use of a BOM will interfere with any protocol or file format that expects specific ASCII characters at the beginning, such as the use of "#!" of at the beginning of Unix shell scripts.
  4. "3.403 Text File". IEEE Std 1003.1, 2017 Edition. IEEE Computer Society. Retrieved 2019-03-01.
  5. "3.206 Line". IEEE Std 1003.1, 2013 Edition. IEEE Computer Society. Retrieved 2015-12-15.
  6. "3.284 Printable File". IEEE Std 1003.1, 2013 Edition. IEEE Computer Society. Retrieved 2015-12-15.
  7. 7.0 7.1 "सिस्टम-घोषित समान प्रकार के पहचानकर्ता". Guides and Sample Code. Apple Inc. 2009-11-17. Retrieved 2016-09-12.
  8. 8.0 8.1 "क्रॉस-प्लेटफ़ॉर्म परिनियोजन के लिए स्क्रिप्ट डिज़ाइन करना". Mac Developer Library. Apple Inc. 2014-03-10. Retrieved 2016-09-12.

बाहरी संबंध