GenBank

From alpha
Jump to navigation Jump to search
GenBank
Content
DescriptionNucleotide sequences for more than 300,000 organisms with supporting bibliographic and biological annotation.
Data types
captured
  • Nucleotide sequence
  • Protein sequence
OrganismsAll
Contact
Research centerNCBI
Primary citationPMID 21071399
Release date1982; 42 years ago (1982)
Access
Data format
WebsiteNCBI
Download URLncbi ftp
Web service URL
Tools
WebBLAST
StandaloneBLAST
Miscellaneous
LicenseUnclear[1]

जेनबैंक अनुक्रम डेटाबेस एक ओपन एक्सेस (प्रकाशन) है, जो सभी सार्वजनिक रूप से उपलब्ध न्यूक्लियोटाइड अनुक्रमों और उनके प्रोटीन अनुवादों का एनोटेट संग्रह है। इसका उत्पादन और रखरखाव राष्ट्रीय जैव प्रौद्योगिकी सूचना केंद्र (एनसीबीआई; संयुक्त राज्य अमेरिका में राष्ट्रीय स्वास्थ्य संस्थान का एक हिस्सा) द्वारा अंतर्राष्ट्रीय न्यूक्लियोटाइड अनुक्रम डेटाबेस सहयोग (आईएनएसडीसी) के हिस्से के रूप में किया जाता है।

जेनबैंक और उसके सहयोगी औपचारिक रूप से वर्णित 500,000 से अधिक प्रजातियों से दुनिया भर की प्रयोगशालाओं में उत्पादित अनुक्रम प्राप्त करते हैं।[2] डेटाबेस की शुरुआत 1982 में वाल्टर गोड और LANL द्वारा की गई थी। जेनबैंक जैविक क्षेत्रों में अनुसंधान के लिए एक महत्वपूर्ण डेटाबेस बन गया है और हाल के वर्षों में हर 18 महीने में लगभग दोगुना होकर तेजी से बढ़ा है।[3][4] जून 2022 में प्रकाशित रिलीज़ 250.0 में 2,45 बिलियन से अधिक अनुक्रमों में 17 ट्रिलियन से अधिक न्यूक्लियोटाइड आधार शामिल थे।[5] जेनबैंक व्यक्तिगत प्रयोगशालाओं से सीधे सबमिशन के साथ-साथ बड़े पैमाने पर डीएनए अनुक्रमण केंद्रों से थोक सबमिशन द्वारा बनाया गया है।

प्रस्तुतियाँ

जेनबैंक को केवल मूल अनुक्रम ही सबमिट किए जा सकते हैं। BankIt, जो एक वेब-आधारित फॉर्म है, या स्टैंड-अलोन सबमिशन प्रोग्राम, सेक्विन का उपयोग करके जेनबैंक में सीधे सबमिशन किए जाते हैं। अनुक्रम सबमिशन प्राप्त होने पर, जेनबैंक कर्मचारी डेटा की मौलिकता की जांच करते हैं और अनुक्रम के लिए एक एक्सेसेशन नंबर (जैव सूचना विज्ञान) निर्दिष्ट करते हैं और गुणवत्ता आश्वासन जांच करते हैं। फिर सबमिशन को सार्वजनिक डेटाबेस में जारी किया जाता है, जहां प्रविष्टियां अंदर आएं ़ द्वारा पुनर्प्राप्त की जा सकती हैं या फाइल ट्रांसफर प्रोटोकॉल द्वारा डाउनलोड की जा सकती हैं। व्यक्त अनुक्रम टैग (ईएसटी), अनुक्रम-टैग साइट (एसटीएस), जीनोम सर्वेक्षण अनुक्रम (जीएसएस), और उच्च-थ्रूपुट जीनोम अनुक्रम (एचटीजीएस) डेटा की थोक प्रस्तुतियाँ अक्सर बड़े पैमाने पर अनुक्रमण केंद्रों द्वारा प्रस्तुत की जाती हैं। जेनबैंक प्रत्यक्ष सबमिशन समूह संपूर्ण माइक्रोबियल जीनोम अनुक्रमों को भी संसाधित करता है।[6][7]


इतिहास

LANL (LANL) में सैद्धांतिक जीवविज्ञान और बायोफिज़िक्स समूह के वाल्टर गोड और अन्य ने 1979 में लॉस एलामोस अनुक्रम डेटाबेस की स्थापना की, जिसका समापन 1982 में सार्वजनिक जेनबैंक के निर्माण के साथ हुआ।[8] राष्ट्रीय स्वास्थ्य संस्थान, राष्ट्रीय विज्ञान फाउंडेशन, संयुक्त राज्य अमेरिका के ऊर्जा विभाग और संयुक्त राज्य अमेरिका के रक्षा विभाग द्वारा वित्त पोषण प्रदान किया गया था। LANL ने बोल्ट, बेरानेक और न्यूमैन फर्म के साथ जेनबैंक पर सहयोग किया और 1983 के अंत तक इसमें 2,000 से अधिक अनुक्रम संग्रहीत किए गए।

1980 के दशक के मध्य में, स्टैनफोर्ड विश्वविद्यालय में इंटेलिजेनेटिक्स बायोइन्फॉर्मेटिक्स कंपनी ने LANL के सहयोग से जेनबैंक परियोजना का प्रबंधन किया।[9] इंटरनेट पर शुरुआती जैव सूचना विज्ञान सामुदायिक परियोजनाओं में से एक के रूप में, जेनबैंक परियोजना ने जैव वैज्ञानिकों के बीच ओपन एक्सेस (प्रकाशन) संचार को बढ़ावा देने के लिए BIOSCI/बायोनेट समाचार समूह शुरू किया। 1989 से 1992 के दौरान, जेनबैंक परियोजना नव निर्मित राष्ट्रीय जैव प्रौद्योगिकी सूचना केंद्र|राष्ट्रीय जैव प्रौद्योगिकी सूचना केंद्र (एनसीबीआई) में परिवर्तित हो गई।[10]

जेनबैंक और ईएमबीएल: न्यूक्लियोटाइड अनुक्रम 1986/1987 खंड I से VII।
जेनबैंक v100 की सीडी-रोम

विकास

सेमी-लॉग स्केल पर जेनबैंक आधार जोड़े में वृद्धि, 1982 से 2018

रिलीज़ 250.0 (जून 2022) के लिए जेनबैंक रिलीज नोट्स में कहा गया है कि 1982 से वर्तमान तक, जेनबैंक में आधारों की संख्या लगभग हर 18 महीने में दोगुनी हो गई है।[5][11] 15 जून 2022 तक, जेनबैंक रिलीज 250.0 में 239 मिलियन रिपोर्ट किए गए अनुक्रमों से 239 मिलियन से अधिक लोकस (आनुवांशिकी) , 1,39 ट्रिलियन न्यूक्लियोटाइड बेस हैं।[5]

जेनबैंक डेटाबेस में अतिरिक्त डेटा सेट शामिल हैं जो मुख्य अनुक्रम डेटा संग्रह से यंत्रवत् निर्मित होते हैं, और इसलिए उन्हें इस गणना से बाहर रखा गया है।

Top 20 organisms in GenBank (Release 250)[5]
Organism base pairs
Triticum aestivum 2.15443744183×10^11
SARS-CoV-2 1.65771825746×10^11
Hordeum vulgare subsp. vulgare 1.01344340096×10^11
Mus musculus 3.0614386913×10^10
Homo sapiens 2.7834633853×10^10
Avena sativa 2.1127939362×10^10
Escherichia coli 1.5517830491×10^10
Klebsiella pneumoniae 1.1144687122×10^10
Danio rerio 1.0890148966×10^10
Bos taurus 1.0650671156×10^10
Triticum turgidum subsp. durum 9.981529154×10^9
Zea mays 7.412263902×10^9
Avena insularis 6.924307246×10^9
Secale cereale 6.749247504×10^9
Rattus norvegicus 6.548854408×10^9
Aegilops longissima 5.920483689×10^9
Canis lupus familiaris 5.776499164×10^9
Aegilops sharonensis 5.272476906×10^9
Sus scrofa 5.179074907×10^9
Rhinatrema bivittatum 5.178626132×10^9


अधूरी पहचान

सार्वजनिक डेटाबेस जिन्हें नेशनल सेंटर फॉर बायोटेक्नोलॉजी इंफॉर्मेशन बेसिक लोकल एलाइनमेंट सर्च टूल (एनसीबीआई ब्लास्ट) का उपयोग करके खोजा जा सकता है, उनमें प्रकार के उपभेदों के सहकर्मी-समीक्षित अनुक्रमों और गैर-प्रकार के उपभेदों के अनुक्रमों का अभाव है। दूसरी ओर, जबकि वाणिज्यिक डेटाबेस में संभावित रूप से उच्च गुणवत्ता वाले फ़िल्टर किए गए अनुक्रम डेटा होते हैं, सीमित संख्या में संदर्भ अनुक्रम होते हैं।

जर्नल ऑफ़ क्लिनिकल माइक्रोबायोलॉजी में एक पेपर जारी किया गया[12] अन्य स्वतंत्र रूप से उपलब्ध, गुणवत्ता-नियंत्रित, वेब-आधारित सार्वजनिक डेटाबेस, जैसे कि EzTaxon डेटाबेस-ई, के साथ मिलकर जेनबैंक के साथ विश्लेषण किए गए 16S राइबोसोमल आरएनए जीन अनुक्रमण परिणामों का मूल्यांकन किया।[13] और बीबी[14] डेटाबेस। परिणामों से पता चला कि EzTaxon डेटाबेस-ई (कप्पा = 0.79) के साथ संयुक्त जेनबैंक का उपयोग करके किए गए विश्लेषण अकेले जेनबैंक (कप्पा = 0.66) या अन्य डेटाबेस का उपयोग करने की तुलना में अधिक भेदभावपूर्ण थे।

जेनबैंक, एक सार्वजनिक डेटाबेस होने के नाते, इसमें किसी विशेष प्रजाति को गलत तरीके से निर्दिष्ट अनुक्रम शामिल हो सकते हैं, क्योंकि जीव की प्रारंभिक पहचान गलत थी। जीनोम (जर्नल) में हाल ही में प्रकाशित एक लेख से पता चला है कि माइटोकॉन्ड्रियल साइटोक्रोम सी ऑक्सीडेज सबयूनिट I अनुक्रमों का 75% गलत तरीके से नेमिप्टेरस मेसोप्रियन मछली को सौंपा गया था, जो शुरू में गलत पहचाने गए व्यक्तियों के अनुक्रमों के निरंतर उपयोग के परिणामस्वरूप हुआ था।[15] लेखक गलत वैज्ञानिक नामों के साथ सार्वजनिक रूप से उपलब्ध अनुक्रमों के आगे वितरण से बचने के लिए सिफारिशें प्रदान करते हैं।

कई प्रकाशित पांडुलिपियों ने जेनबैंक पर गलत अनुक्रमों की पहचान की है।[16][17][18] ये न केवल गलत प्रजाति असाइनमेंट हैं (जिनके अलग-अलग कारण हो सकते हैं) बल्कि अनुक्रमण त्रुटियों के साथ काइमेरा और परिग्रहण रिकॉर्ड भी शामिल हैं। पक्षियों के सभी साइटोक्रोम B रिकॉर्ड की गुणवत्ता पर एक हालिया पांडुलिपि से पता चला है कि 45% पहचाने गए गलत रिकॉर्ड में वाउचर नमूने का अभाव है जो प्रजातियों की पहचान के पुनर्मूल्यांकन को रोकता है।[19]


यह भी देखें

संदर्भ

  1. The download page at UCSC says "NCBI places no restrictions on the use or distribution of the GenBank data. However, some submitters may claim patent, copyright, or other intellectual property rights in all or a portion of the data they have submitted. NCBI is not in a position to assess the validity of such claims, and therefore cannot provide comment or unrestricted permission concerning the use, copying, or distribution of the information contained in GenBank."
  2. Eric W Sayers; Mark Cavanaugh; Karen Clark; Kim D Pruitt; Conrad L Schoch; Stephen T Sherry; Ilene Karsch-Mizrachi (7 January 2022). "GenBank". Nucleic Acids Archive. 50 (D1): D161–D164. doi:10.1093/nar/gkab1135.
  3. Benson D; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Wheeler, D. L.; et al. (2008). "GenBank". Nucleic Acids Research. 36 (Database): D25–D30. doi:10.1093/nar/gkm929. PMC 2238942. PMID 18073190.
  4. Benson D; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Sayers, E. W.; et al. (2009). "GenBank". Nucleic Acids Research. 37 (Database): D26–D31. doi:10.1093/nar/gkn723. PMC 2686462. PMID 18940867.
  5. 5.0 5.1 5.2 5.3 "GenBank release notes (Release 250)". NCBI. 15 June 2022. Retrieved 20 July 2022.
  6. "जेनबैंक में डेटा कैसे सबमिट करें". NCBI. Retrieved 20 July 2022.
  7. "जेनबैंक सबमिशन प्रकार". NCBI. Retrieved 20 July 2022.
  8. Hanson, Todd (2000-11-21). "जेनबैंक के संस्थापक वाल्टर गोड का निधन". Newsbulletin: obituary. Los Alamos National Laboratory.
  9. LANL GenBank History
  10. Benton D (1990). "जेनबैंक ऑन-लाइन सेवा में हालिया बदलाव". Nucleic Acids Research. 18 (6): 1517–1520. doi:10.1093/nar/18.6.1517. PMC 330520. PMID 2326192.
  11. Benson, D. A.; Cavanaugh, M.; Clark, K.; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Sayers, E. W. (2012). "GenBank". Nucleic Acids Research. 41 (Database issue): D36–D42. doi:10.1093/nar/gks1195. PMC 3531190. PMID 23193287.
  12. Kyung Sun Park; Chang-Seok Ki; Cheol-In Kang; Yae-Jean Kim; Doo Ryeon Chung; Kyong Ran Peck; Jae-Hoon Song; Nam Yong Lee (May 2012). "क्लिनिकल ब्लड कल्चर आइसोलेट्स की आणविक पहचान के लिए जेनबैंक, ईज़टैक्सन और बीआईबीआई सेवाओं का मूल्यांकन जो पारंपरिक तरीकों से अज्ञात या गलत पहचाने गए थे". J. Clin. Microbiol. 50 (5): 1792–1795. doi:10.1128/JCM.00081-12. PMC 3347139. PMID 22403421.
  13. EzTaxon-e Database eztaxon-e.ezbiocloud.net (archive accessed 25 March 2021)
  14. leBIBI V5 pbil.univ-lyon1.fr (archive accessed 25 March 2021)
  15. Ogwang, Joel; Bariche, Michel; Bos, Arthur R. (2021). "लाल सागर और पूर्वी भूमध्य सागर से थ्रेडफिन ब्रीम (नेमिप्टेरस एसपीपी) की आनुवंशिक विविधता और फ़ाइलोजेनेटिक संबंध". Genome. 64 (3): 207–216. doi:10.1139/gen-2019-0163.
  16. van den Burg, Matthijs P.; Herrando-Pérez, Salvador; Vieites, David R. (13 August 2020). "एसीडीसी, जेनबैंक रिकॉर्ड के लिए प्रतिलिपि प्रस्तुत करने योग्य क्यूरेशन का उपयोग करके उभयचर साइटोक्रोम-बी अनुक्रमों का एक वैश्विक डेटाबेस". Scientific Data. 7 (1). doi:10.1038/s41597-020-00598-9. eISSN 2052-4463. PMC 7426930. PMID 32792559.
  17. Li, Xiaobing; Shen, Xuejuan; Chen, Xiao; Xiang, Dan; Murphy, Robert W.; Shen, Yongyi (6 February 2018). "जेनबैंक में मछलियों के संभावित समस्याग्रस्त साइटब जीन अनुक्रमों का पता लगाना". Frontiers in Genetics. 9. doi:10.3389/fgene.2018.00030. eISSN 1664-8021. PMC 5808227. PMID 29467794.
  18. Heller, Philip; Casaletto, James; Ruiz, Gregory; Geller, Jonathan (7 August 2018). "CO-ARBitrator के साथ जेनबैंक से प्राप्त मेटाज़ोअन साइटोक्रोम सी ऑक्सीडेज सबयूनिट I जीन अनुक्रम का एक डेटाबेस". Scientific Data. 5 (1). doi:10.1038/sdata.2018.156. eISSN 2052-4463. PMC 6080493. PMID 30084847.
  19. Van Den Burg, Matthijs P.; Vieites, David R. (22 September 2022). "Bird genetic databases need improved curation and error reporting to <scp>NCBI</scp>". Ibis. doi:10.1111/ibi.13143. eISSN 1474-919X. ISSN 0019-1019.


बाहरी संबंध