पाठ फ़ाइल

Text file
Filename extension	.txt
Internet media type	text/plain
Type code	TEXT
Uniform Type Identifier (UTI)	public.plain-text
UTI conformation	public.text
Type of format	Document file format, Generic container format

एक टेक्स्ट फ़ाइल (कभी-कभी टेक्स्टफ़ाइल लिखी जाती है; एक पुराना वैकल्पिक नाम फ़्लैटफ़ाइल है) एक प्रकार की कम्प्यूटर फाइल है जिसे इलेक्ट्रॉनिक पाठ की पंक्ति (टेक्स्ट फ़ाइल) के अनुक्रम के रूप में संरचित किया जाता है। एक टेक्स्ट फ़ाइल कंप्यूटर फ़ाइल सिस्टम के भीतर डेटा भंडारण मौजूद होती है। सीपी/एम और एमएस-डॉस जैसे ऑपरेटिंग सिस्टम में, जहां ऑपरेटिंग सिस्टम बाइट्स में फ़ाइल आकार का ट्रैक नहीं रखता है, टेक्स्ट फ़ाइल के अंत को एक या अधिक विशेष वर्ण रखकर दर्शाया जाता है, जिसे एंड-ऑफ़ के रूप में जाना जाता है। -फ़ाइल (ईओएफ) मार्कर, टेक्स्ट फ़ाइल में अंतिम पंक्ति (पाठ फ़ाइल) पैडिंग के रूप में। आधुनिक ऑपरेटिंग सिस्टम जैसे कि माइक्रोसॉफ़्ट विंडोज़ और यूनिक्स जैसे सिस्टम पर, टेक्स्ट फ़ाइलों में कोई विशेष ईओएफ वर्ण नहीं होता है, क्योंकि उन ऑपरेटिंग सिस्टम पर फ़ाइल सिस्टम बाइट्स में फ़ाइल आकार का ट्रैक रखते हैं। अधिकांश टेक्स्ट फ़ाइलों में नई पंक्ति |एंड-ऑफ़-लाइन डिलीमीटर की आवश्यकता होती है, जो ऑपरेटिंग सिस्टम के आधार पर कुछ अलग तरीकों से किया जाता है। रिकॉर्ड-उन्मुख फ़ाइल सिस्टम सिस्टम वाले कुछ ऑपरेटिंग सिस्टम | रिकॉर्ड-ओरिएंटेड फ़ाइल सिस्टम नई लाइन डिलीमीटर का उपयोग नहीं कर सकते हैं और मुख्य रूप सादे पाठ फ़ाइलों को निश्चित या परिवर्तनीय लंबाई रिकॉर्ड के रूप में अलग की गई लाइनों के साथ संग्रहीत करेंगे।

टेक्स्ट फ़ाइल एक प्रकार के कंटेनर को संदर्भित करती है, जबकि सादा टेक्स्ट एक प्रकार की सामग्री को संदर्भित करता है।

विवरण के सामान्य स्तर पर, कंप्यूटर फ़ाइलें दो प्रकार की होती हैं: टेक्स्ट फ़ाइलें और बाइनरी फ़ाइलें।^[1]

डेटा भंडारण

अल्पविराम से अलग किए गए मान-स्वरूपित पाठ फ़ाइल का एक शैलीबद्ध प्रतिष्ठित चित्रण।

उनकी सरलता के कारण, टेक्स्ट फ़ाइलें आमतौर पर सूचना के कंप्यूटर डेटा भंडारण के लिए उपयोग की जाती हैं। वे अन्य फ़ाइल स्वरूपों के साथ आने वाली कुछ समस्याओं से बचते हैं, जैसे endianness, पैडिंग बाइट्स, या किसी शब्द (कंप्यूटर वास्तुकला) में बाइट्स की संख्या में अंतर। इसके अलावा, जब किसी टेक्स्ट फ़ाइल में डेटा भ्रष्टाचार होता है, तो शेष सामग्री को पुनर्प्राप्त करना और प्रसंस्करण जारी रखना अक्सर आसान होता है। टेक्स्ट फ़ाइलों का एक नुकसान यह है कि उनमें आम तौर पर कम एन्ट्रॉपी (सूचना सिद्धांत) होती है, जिसका अर्थ है कि जानकारी आवश्यक से अधिक संग्रहण रखती है।

एक साधारण पाठ फ़ाइल को व्याख्या में पाठक की सहायता के लिए किसी अतिरिक्त मेटा डेटा (इसके चरित्र सेट के ज्ञान के अलावा) की आवश्यकता नहीं हो सकती है। एक टेक्स्ट फ़ाइल में बिल्कुल भी डेटा नहीं हो सकता है, जो कि शून्य-बाइट फ़ाइल का मामला है।

एन्कोडिंग

ASCII अंग्रेजी भाषा की पाठ फ़ाइलों के लिए वर्ण सेटों का सबसे सामान्य संगत उपसमूह है, और आमतौर पर कई स्थितियों में इसे डिफ़ॉल्ट फ़ाइल स्वरूप माना जाता है। इसमें अमेरिकी अंग्रेजी शामिल है, लेकिन ब्रिटिश पाउंड चिह्न, यूरो चिह्न, या अंग्रेजी के बाहर उपयोग किए जाने वाले वर्णों के लिए, एक समृद्ध वर्ण सेट का उपयोग किया जाना चाहिए। कई प्रणालियों में, इसे उस कंप्यूटर पर डिफ़ॉल्ट लोकेल (कंप्यूटर सॉफ़्टवेयर) सेटिंग के आधार पर चुना जाता है जिस पर इसे पढ़ा जाता है। UTF-8 से पहले, यह पारंपरिक रूप से यूरोपीय भाषाओं के लिए एकल-बाइट एन्कोडिंग (जैसे ISO-8859-1 से ISO-8859-16 तक) और एशियाई भाषाओं के लिए विस्तृत वर्ण एन्कोडिंग थी।

क्योंकि एनकोडिंग में आवश्यक रूप से केवल पात्रों का एक सीमित भंडार होता है, अक्सर बहुत छोटा, कई केवल मानव भाषाओं के एक सीमित उपसमूह में पाठ का प्रतिनिधित्व करने के लिए उपयोग करने योग्य होते हैं। यूनिकोड सभी ज्ञात भाषाओं का प्रतिनिधित्व करने के लिए एक सामान्य मानक बनाने का एक प्रयास है, और अधिकांश ज्ञात वर्ण सेट बहुत बड़े यूनिकोड वर्ण सेट के सबसेट हैं। हालाँकि यूनिकोड के लिए विस्तृत चरित्र एनकोडिंग उपलब्ध हैं, सबसे आम यूटीएफ-8 है, जिसका ASCII के साथ बैकवर्ड-संगत होने का लाभ है; अर्थात्, प्रत्येक ASCII टेक्स्ट फ़ाइल समान अर्थ वाली एक UTF-8 टेक्स्ट फ़ाइल भी है। UTF-8 का यह भी फायदा है कि UTF-8#फ़ॉलबैक और ऑटो-डिटेक्शन|यह आसानी से ऑटो-डिटेक्टेबल है। इस प्रकार, UTF-8 सक्षम सॉफ़्टवेयर का एक सामान्य ऑपरेटिंग मोड, अज्ञात एन्कोडिंग की फ़ाइलें खोलते समय, पहले UTF-8 को आज़माना है और स्थानीय निर्भर विरासत एन्कोडिंग पर वापस आना है जब यह निश्चित रूप से UTF-8 नहीं है।

प्रारूप

अधिकांश ऑपरेटिंग सिस्टम पर, टेक्स्ट फ़ाइल नाम एक फ़ाइल प्रारूप को संदर्भित करता है जो बहुत कम प्रारूपण के साथ केवल सादे पाठ सामग्री की अनुमति देता है (उदाहरण के लिए, कोई 'जोर (टाइपोग्राफी)' या इटैलिक प्रकार प्रकार नहीं)। ऐसी फ़ाइलों को पाठ टर्मिनल ों पर या साधारण टेक्स्ट संपादकों में देखा और संपादित किया जा सकता है। टेक्स्ट फ़ाइलें आमतौर पर MIME प्रकार की होती हैं text/plain, आमतौर पर एन्कोडिंग का संकेत देने वाली अतिरिक्त जानकारी के साथ।

माइक्रोसॉफ्ट विंडोज़ टेक्स्ट फ़ाइलें

MS-DOS और Microsoft Windows एक सामान्य टेक्स्ट फ़ाइल स्वरूप का उपयोग करते हैं, जिसमें टेक्स्ट की प्रत्येक पंक्ति को दो-वर्ण संयोजन द्वारा अलग किया जाता है: कैरिज रिटर्न (CR) और रेखा भरण (LF)। पाठ की अंतिम पंक्ति को सीआर-एलएफ मार्कर के साथ समाप्त न किया जाना आम बात है, और कई पाठ संपादक (नोटपैड (विंडोज़) सहित) स्वचालित रूप से अंतिम पंक्ति में एक सम्मिलित नहीं करते हैं।

माइक्रोसॉफ्ट विंडोज ऑपरेटिंग सिस्टम पर, एक फ़ाइल को टेक्स्ट फ़ाइल के रूप में माना जाता है यदि फ़ाइल के नाम का प्रत्यय (फ़ाइल नाम एक्सटेंशन) है .txt. हालाँकि, कई अन्य प्रत्ययों का उपयोग विशिष्ट उद्देश्यों वाली टेक्स्ट फ़ाइलों के लिए किया जाता है। उदाहरण के लिए, कंप्यूटर प्रोग्राम के लिए स्रोत कोड आमतौर पर टेक्स्ट फ़ाइलों में रखा जाता है जिनमें फ़ाइल नाम प्रत्यय होते हैं जो उस प्रोग्रामिंग भाषा को दर्शाते हैं जिसमें स्रोत लिखा गया है।

अधिकांश Microsoft Windows टेक्स्ट फ़ाइलें ANSI, OEM, यूनिकोड या UTF-8 एन्कोडिंग का उपयोग करती हैं। जिसे Microsoft Windows शब्दावली ANSI एन्कोडिंग कहती है, वह आमतौर पर सिंगल-बाइट ISO/IEC 8859 एन्कोडिंग होती है (यानी Microsoft नोटपैड मेनू में ANSI वास्तव में सिस्टम कोड पेज, गैर-यूनिकोड, लीगेसी एन्कोडिंग है), चीनी, जापानी और कोरियाई जैसे स्थानों को छोड़कर जिसके लिए डबल-बाइट कैरेक्टर सेट की आवश्यकता होती है। यूनिकोड में परिवर्तन से पहले, एएनएसआई एन्कोडिंग को पारंपरिक रूप से माइक्रोसॉफ्ट विंडोज के भीतर डिफ़ॉल्ट सिस्टम लोकेल के रूप में उपयोग किया जाता था। इसके विपरीत, ओईएम एनकोडिंग, जिसे डॉस कोड पेज के रूप में भी जाना जाता है, को आईबीएम द्वारा मूल आईबीएम पीसी टेक्स्ट मोड डिस्प्ले सिस्टम में उपयोग के लिए परिभाषित किया गया था। इनमें आमतौर पर ग्राफिकल और बॉक्स-ड्राइंग चरित्र | लाइन-ड्राइंग कैरेक्टर शामिल होते हैं जो डॉस अनुप्रयोगों में आम हैं। यूनिकोड-एन्कोडेड माइक्रोसॉफ्ट विंडोज टेक्स्ट फाइलों में यूटीएफ-16 यूनिकोड ट्रांसफॉर्मेशन फॉर्मेट में टेक्स्ट होता है। ऐसी फ़ाइलें आम तौर पर बाइट ऑर्डर चिह्न (बीओएम) से शुरू होती हैं, जो फ़ाइल सामग्री की अंतहीनता का संचार करती है। हालाँकि UTF-8 एंडियननेस समस्याओं से ग्रस्त नहीं है, कई Microsoft Windows प्रोग्राम (यानी नोटपैड) UTF-8-एन्कोडेड फ़ाइलों की सामग्री को BOM के साथ जोड़ते हैं,^[2] UTF-8 एन्कोडिंग को अन्य 8-बिट एन्कोडिंग से अलग करना।^[3]

यूनिक्स पाठ फ़ाइलें

यूनिक्स जैसे ऑपरेटिंग सिस्टम पर, टेक्स्ट फ़ाइल प्रारूप का सटीक वर्णन किया गया है: POSIX एक टेक्स्ट फ़ाइल को एक फ़ाइल के रूप में परिभाषित करता है जिसमें शून्य या अधिक पंक्तियों में व्यवस्थित वर्ण होते हैं,^[4] जहां रेखाएं शून्य या अधिक गैर-न्यूलाइन वर्णों के साथ-साथ एक समाप्ति न्यूलाइन वर्ण का अनुक्रम हैं,^[5] सामान्यतः एलएफ.

इसके अतिरिक्त, POSIX परिभाषित करता हैprintable file एक टेक्स्ट फ़ाइल के रूप में जिसके अक्षर क्षेत्रीय नियमों के अनुसार मुद्रण योग्य या स्पेस या बैकस्पेस हैं। इसमें अधिकांश नियंत्रण वर्ण शामिल नहीं हैं, जो मुद्रण योग्य नहीं हैं।^[6]

एप्पल मैकिंटोश टेक्स्ट फ़ाइलें

MacOS के आगमन से पहले, क्लासिक Mac OS सिस्टम एक फ़ाइल की सामग्री (डेटा फ़ोर्क) को एक टेक्स्ट फ़ाइल मानता था, जब इसके संसाधन फ़ोर्क ने संकेत दिया था कि फ़ाइल का प्रकार TEXT था।^[7] क्लासिक Mac OS टेक्स्ट फ़ाइलों की पंक्तियाँ CR वर्णों के साथ समाप्त हो जाती हैं।^[8] यूनिक्स जैसी प्रणाली होने के कारण, macOS टेक्स्ट फ़ाइलों के लिए यूनिक्स प्रारूप का उपयोग करता है।^[8]MacOS में टेक्स्ट फ़ाइलों के लिए उपयोग किया जाने वाला समान प्रकार पहचानकर्ता (UTI) public.plain-text है; अतिरिक्त, अधिक विशिष्ट यूटीआई हैं: यूटीएफ-8-एन्कोडेड टेक्स्ट के लिए public.utf8-plain-text, utf-16-एन्कोडेड टेक्स्ट के लिए public.utf16-extern-plain-text और public.utf16-plain-text और com.apple क्लासिक मैक ओएस टेक्स्ट फ़ाइलों के लिए .traditional-mac-plain-text।^[7]

प्रतिपादन

जब किसी पाठ संपादक द्वारा खोला जाता है, तो मानव-पठनीय सामग्री उपयोगकर्ता के सामने प्रस्तुत की जाती है। इसमें अक्सर उपयोगकर्ता को दिखाई देने वाली फ़ाइल का सादा पाठ शामिल होता है। एप्लिकेशन के आधार पर, नियंत्रण कोड या तो संपादक द्वारा क्रियान्वित किए गए शाब्दिक निर्देशों के रूप में प्रस्तुत किए जा सकते हैं, या दृश्यमान एस्केप वर्णों के रूप में प्रस्तुत किए जा सकते हैं जिन्हें सादे पाठ के रूप में संपादित किया जा सकता है। यद्यपि किसी पाठ फ़ाइल में सादा पाठ हो सकता है, फ़ाइल के भीतर नियंत्रण वर्ण (विशेष रूप से फ़ाइल के अंत का वर्ण) किसी विशेष विधि द्वारा सादे पाठ को अनदेखा कर सकते हैं।

यह भी देखें

एएससीआईआई
EBCDIC
फ़ाइल नाम एक्सटेंशन
फ़ाइल स्वरूपों की सूची
नई पंक्ति
वाक्य - विन्यास पर प्रकाश डालना
पाठ संपादक
यूनिकोड

नोट्स और संदर्भ

↑ Lewis, John (2006). कंप्यूटर विज्ञान प्रकाशित. Jones and Bartlett. ISBN 0-7637-4149-3.
↑ "बाइट ऑर्डर मार्क्स का उपयोग करना". Internationalization for Windows Applications. Microsoft. Jan 7, 2021. Archived from the original on Feb 21, 2023. Retrieved 2022-04-21.
↑ Freytag, Asmus (2015-12-18). "FAQ – UTF-8, UTF-16, UTF-32 & BOM". The Unicode Consortium. Retrieved 2016-05-30. Yes, UTF-8 can contain a BOM. However, it makes no difference as to the endianness of the byte stream. UTF-8 always has the same byte order. An initial BOM is only used as a signature — an indication that an otherwise unmarked text file is in UTF-8. Note that some recipients of UTF-8 encoded data do not expect a BOM. Where UTF-8 is used transparently in 8-bit environments, the use of a BOM will interfere with any protocol or file format that expects specific ASCII characters at the beginning, such as the use of "#!" of at the beginning of Unix shell scripts.
↑ "3.403 Text File". IEEE Std 1003.1, 2017 Edition. IEEE Computer Society. Retrieved 2019-03-01.
↑ "3.206 Line". IEEE Std 1003.1, 2013 Edition. IEEE Computer Society. Retrieved 2015-12-15.
↑ "3.284 Printable File". IEEE Std 1003.1, 2013 Edition. IEEE Computer Society. Retrieved 2015-12-15.
↑ ^7.0 ^7.1 "सिस्टम-घोषित समान प्रकार के पहचानकर्ता". Guides and Sample Code. Apple Inc. 2009-11-17. Retrieved 2016-09-12.
↑ ^8.0 ^8.1 "क्रॉस-प्लेटफ़ॉर्म परिनियोजन के लिए स्क्रिप्ट डिज़ाइन करना". Mac Developer Library. Apple Inc. 2014-03-10. Retrieved 2016-09-12.

बाहरी संबंध

Power of Plain Text on C2 wiki

[Lewis000-1] Lewis, John (2006). कंप्यूटर विज्ञान प्रकाशित. Jones and Bartlett. ISBN 0-7637-4149-3.

[2] "बाइट ऑर्डर मार्क्स का उपयोग करना". Internationalization for Windows Applications. Microsoft. Jan 7, 2021. Archived from the original on Feb 21, 2023. Retrieved 2022-04-21.

[3] Freytag, Asmus (2015-12-18). "FAQ – UTF-8, UTF-16, UTF-32 & BOM". The Unicode Consortium. Retrieved 2016-05-30. Yes, UTF-8 can contain a BOM. However, it makes no difference as to the endianness of the byte stream. UTF-8 always has the same byte order. An initial BOM is only used as a signature — an indication that an otherwise unmarked text file is in UTF-8. Note that some recipients of UTF-8 encoded data do not expect a BOM. Where UTF-8 is used transparently in 8-bit environments, the use of a BOM will interfere with any protocol or file format that expects specific ASCII characters at the beginning, such as the use of "#!" of at the beginning of Unix shell scripts.

[4] "3.403 Text File". IEEE Std 1003.1, 2017 Edition. IEEE Computer Society. Retrieved 2019-03-01.

[5] "3.206 Line". IEEE Std 1003.1, 2013 Edition. IEEE Computer Society. Retrieved 2015-12-15.

[6] "3.284 Printable File". IEEE Std 1003.1, 2013 Edition. IEEE Computer Society. Retrieved 2015-12-15.

[mac-uti-7] 7.0 ^7.1 "सिस्टम-घोषित समान प्रकार के पहचानकर्ता". Guides and Sample Code. Apple Inc. 2009-11-17. Retrieved 2016-09-12.

[mac-line-endings-8] 8.0 ^8.1 "क्रॉस-प्लेटफ़ॉर्म परिनियोजन के लिए स्क्रिप्ट डिज़ाइन करना". Mac Developer Library. Apple Inc. 2014-03-10. Retrieved 2016-09-12.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

v t e Computer files
Types	Binary file / text file File format List of file formats File signatures Magic number Metafile Sidecar file Sparse file Swap file System file Temporary file Zero-byte file
Properties	Filename 8.3 filename Long filename Filename mangling Filename extension List of filename extensions File attribute Extended file attributes File size Hidden file / Hidden directory
Organisation	Directory/folder NTFS links Temporary folder Directory structure File sequence File system Filesystem Hierarchy Standard Path
Operations	Open Close Read Write
Linking	File descriptor Hard link Shortcut Alias Shadow Symbolic link
Management	File comparison Data compression File manager Comparison of file managers File system permissions File transfer File sharing File verification