class: center, middle, inverse, title-slide # Bases de Datos: Swiss-Prot ### Licenciatura en Ciencias Genómicas,UNAM ### First version: 2021-10-10; Last update: 2021-10-12 --- <style type="text/css"> /* From https://github.com/yihui/xaringan/issues/147 */ .scroll-output { height: 80%; overflow-y: scroll; } /* https://stackoverflow.com/questions/50919104/horizontally-scrollable-output-on-xaringan-slides */ pre { max-width: 100%; overflow-x: scroll; } </style> # Introducción a librerías ## Contenido de la unidad 1. [Inicios](Clase_4_pt1_v1.0.html#4) 2. [`Swiss-Prot`](Clase_4_pt1_v1.0.html#6) 3. [Swiss Institute](Clase_4_pt1_v1.0.html#7) 3. [UniProt](Clase_4_pt1_v1.0.html#10) 3. [`ExPASy`](Clase_4_pt1_v1.0.html#14) 4. [`PROSITE`](Clase_4_pt1_v1.0.html#18) --- ## Objetivo Conocer la historia de Swiss-Prot, UniProt, ExPASy y PROSITE. --- ## Inicios **Finales de 70s:** Obtención de secuencias de DNA y proteínas cada vez más facil **Surge la necesidad de almacenarlas y de analizarlas** Primeros programas computacionales se encargaban de comparar proteínas de distintas especies --- ## Inicios .pull-left[ **80s** Amos Bairoch, estudiante de PhD ] .pull.right[ <img src="imgs/clase_4_pt1/Amos.jpeg" width="250px" style="display: block; margin: auto;" /> ] - COMPSEQ **//** PC/Gene: software para análisis de nucleótidos y proteínas (para su software necesitaba una base de datos) - Basándose en el Atlas de Dayhoff (cambios en formato y adaptándo a formato para computadoras) - Cubre falta de: referencias cruzadas (nt - aa), anotación sobre función, localización subcelular, etc. - Recolecta más secuencias en literatura - **(Anotación manual de sus secuencias!)** En 1986 lanza su base de datos --- ## `Swiss-Prot` .pull-left[ (1986) Swiss-Prot !!! - experimental results - computed features - scientific conclusions Versiones eran distribuida en cintas magnéticas por EMBL (1989) DB → Diagnostic tool for characterising protein families ] .pull-right[ <img src="imgs/clase_4_pt1/swissprot.jpeg" width="250px" style="display: block; margin: auto;" /> ] --- ### Hacia el Swiss Institute **Crecimiento exponencial de Swiss-Prot** **¡¡Biocuradores!!** - Curación de datos manualmente por anotadores especializados 90’s escasez de financiamiento Antes del ‘98 solo tenían financiamiento a corto plazo (Gobierno y Fondo Nacional) - 1998: Creación del SIB --- <br><br><br> .center[ <iframe width="660" height="415" src="https://www.youtube-nocookie.com/embed/esyY0dfxEsY" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> ] --- <br><br><br> .center[ <iframe width="660" height="415" src="https://www.youtube-nocookie.com/embed/z4DP0Lg-qpw" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> ] --- ### `UniProtKnowledgeBase/Swiss-Prot` .pull-left[ 2002, Rolf Apweiler, Consorcio UniProt ] .pull.right[ <img src="imgs/clase_4_pt1/Rolf.jpeg" width="125px" style="display: block; margin: auto 0 auto auto;" /> ] Creación de UniProt Knowledgebase (UniProtKB) - UniProtKB/Swiss-Prot (anotación manual) - UniProtKB/TrEMBL (anotación automática) (1996) - and the PIR protein database. *"World's most comprehensive catalogue of information on proteins"* --- ## UniProt Consortium (2002) - European Bioinformatics Institute (EBI) - Swiss Institute of Bioinformatics (SIB) - Protein Information Resource (PIR) *"The mission of UniProt is to provide the scientific community with a comprehensive, high-quality and freely accessible resource of protein sequence and functional information."* .pull-left[ <img src="imgs/clase_4_pt1/UniProt2.jpeg" width="350px" style="display: block; margin: auto auto auto 0;" /> ] .pull-right[ <img src="imgs/clase_4_pt1/UniProt.jpeg" width="350px" style="display: block; margin: auto 0 auto auto;" /> ] --- ## UniProt Consortium Miembros están involucrados en el mantenimiento y anotación de la base de datos. <br> *"These databases coexisted with differing protein sequence coverage and annotation priorities."* *"Swiss-Prot aimed to provide reliable protein sequences associated with a high level of annotation (such as the description of the function of a protein, its domain structure, post-translational modifications, variants, etc.), a minimal level of redundancy and high level of integration with other databases."* --- ## Diferencia `PDB` y `Swissprot` **The Protein Databank (PDB)** - Repositorio de estructuras 3D generadas por cristalografia de rayos X y/o espectroscopia NMR (proteínas, ácidos nucleicos, complejos macromoleculares) **UniProt** - Base de datos de secuencias y anotación de proteínas - Knowledgebase --- ## Expert Protein Analysis System (ExPASy) Portal integrado y extensible que conecta a más de 160 bases de datos y herramientas Los distintos recursos se encuentran alojados por los distintos grupos (descentralizado) <br> <img src="imgs/clase_4_pt1/expasy3.jpeg" width="800px" style="display: block; margin: auto;" /> --- ## Expert Protein Analysis System (ExPASy) **Creado en 1993** - Análisis proteómicos: secuencias, electroforesis 2D-Page y estructuras de proteínas Anteriormente contenia a UniProtKB/Swiss-Prot y UniprotKB/TrEMBL (ahora en UniProt) **(Agosto 1993)** ExPasy fue uno de los primeros 150 sitios web en el mundo y el primero dentro de las ciencias biológicas **(2011)** Se convierte en el catálogo diverso de recursos bioinformaticos SIB ExPASy Bioformatics Resources Portal **Última versión Octubre 2020** --- <img src="imgs/clase_4_pt1/expasy.jpeg" width="800px" style="display: block; margin: auto;" /> --- ### ExPASy anteriormente <img src="imgs/clase_4_pt1/expasy2.jpeg" width="800px" style="display: block; margin: auto;" /> --- ## PROSITE <img src="imgs/clase_4_pt1/prosite.jpeg" width="800px" style="display: block; margin: auto;" /> --- ## PROSITE 1988 por Amos Bairoch. - Distribuida en PC/Gene Inicio como una base de datos de patrones de familias o dominios de proteínas Desarrollada a la par con `Swiss-Prot`, beneficiándose la una de la otra Muchos patrones fueron identificados al anotar familias de proteínas en Swiss-Prot (antes que incluso hubiera literatura relacionada con ellas) Patrones no adaptados para identificar regiones menos conservadas o dominios completos (sensible a excepciones). **(adaptado para regiones cortas conservadas: sitios catalíticos, regiones de cisteínas involucradas en enlaces disulfuro, etc.)** --- ## PROSITE Contiene documentación extensiva y anotación detallada sobre dominios, familias y sitios funcionales (2005) Agrupar información funcional de PROSITE en una base de datos de reglas que puedan ser leídas por programas y aplicados en proteínas reconocidas por los perfiles de PROSITE **ProRULE:** genera distintas anotaciones en formato Swiss-Prot, automáticamente - Provee información adicional sobre funcionalidad o de aminoácidos determinantes de estructura - **anotaciones condicionales**: dependiente de la presencia de ciertos aminoácidos en posiciones precisas o ocurrencia de otros dominios o de taxonomía específica