class: center, middle, inverse, title-slide # 3. Bases de datos ### Licenciatura en Ciencias Genómicas,UNAM ### First version: 2021-08-22; Last update: 2021-09-20 --- <style type="text/css"> /* From https://github.com/yihui/xaringan/issues/147 */ .scroll-output { height: 80%; overflow-y: scroll; } /* https://stackoverflow.com/questions/50919104/horizontally-scrollable-output-on-xaringan-slides */ pre { max-width: 100%; overflow-x: scroll; } </style> # Bases de Datos ## Contenido de la unidad 1. [Inicios de las Bases de Datos](Clase_3_pt2_v1.0.html#4) 2. [EMBL](Clase_3_pt2_v1.0.html#6) 2. [NCBI](Clase_3_pt2_v1.0.html#8) 3. [INSDC](Clase_3_pt2_v1.0.html#9) 4. [FAIR principles](Clase_3_pt2_v1.0.html#11) 5. [The Global Life Science Data Resources Coalition](Clase_3_pt2_v1.0.html#12) --- ## Objetivo Conocer la historia de las bases de datos más importantes en bioinformática. --- ## Inicios de las Base de Datos .pull-left[ **(1965) Atlas of Protein Sequence and Structure** Secuencias de ~70 proteínas (varias especies) con alineamientos y referencias de las secuencias. - Búsqueda manual en publicaciones - Verificación de secuencias <img src="imgs/clase_3_pt2/atlas.jpg" width="150px" style="display: block; margin: auto;" /> ] .pull-right[ <img src="imgs/clase_3_pt2/margaretDayhoff.jpg" width="200px" style="display: block; margin: auto;" /> .small["There is a tremendous amount of information regarding evolutionary history and biochemical function implicit in each sequence and the number of known sequences is growing explosively. We feel it is important to collect this significant information, correlate it into a unified whole and interpret it."] ] --- ### Hacia un banco de secuencias #### Rockefeller University meeting (1979) <br> **Propuesta Dayhoff** - Conocimiento publicado es de quien lo recolecta (copyright) - Cuota por suscribirse a base de datos - Redistribución prohibida <br> **Propuesta Goad** - Conocimiento publicado es de la comunidad - Intercambio de secuencias sin otra retribución --- ### EMBL #### 1980: - Enero → Accesibilidad para colaborar con USA - Abril → *“Computing and DNA Sequences”* meeting - Junio → Anuncio de que su base de datos será de libre acceso <br> 1981: - **primer repositorio central de secuencias (open access)** --- ## Los Alamos Sequence Database .pull-left[ - Acordar acuerdos de cooperación con los Journals (enfoque no individual) - Cooperación internacional con EMBL y DDBJ - Finales de 80s: Journals hacen obligatorio subir secuencias - Termina en 1992: Anexado al NCBI ] .pull-rigth[ <img src="imgs/clase_3_pt2/Goad.jpg" width="225px" style="display: block; margin: auto 0 auto auto;" /> ] --- ## NCBI - 1990: BLAST - 1991: Entrez en CD - 1992: Anexo de GenBank - 1993: Network Entrez - 1994: NCBI Web (BLAST, Entrez, dbEST, dbSTS) - 1995: Genomes, Bankit - 1996: OMIM - 1997: PubMed - 1999: Human Genome --- ## International Nucleotide Sequence Database Collaboration .pull-left[Exchange data daily to ensure that a uniform and comprehensive collection of sequence information is available worldwide <img src="imgs/clase_3_pt2/insdc2.jpg" width="250px" style="display: block; margin: auto auto auto 0;" /> ] .pull.right[ **[INSD (the International Nucleotide Sequence Databases)](https://www.insdc.org/)** .small[hosts, not owners] <img src="imgs/clase_3_pt2/inscd.jpg" width="350px" /> ] --- <img src="imgs/clase_3_pt2/wwpdb.jpg" width="800px" style="display: block; margin: auto;" /> --- ## FAIR principles FAIR principles (Findable, Accessible (under well-defined conditions), Interoperable, and Reusable) Antes cooperación con journal editors. **2016** this principle of data sharing and data citation letter .pull-left[ <img src="imgs/clase_3_pt2/fair_cen.jpg" width="300px" style="display: block; margin: auto auto auto 0;" /> ] .pull-right[ <img src="imgs/clase_3_pt2/FAIR.png" width="400px" style="display: block; margin: auto;" /> ] --- ## The Global Life Sciences Data Resources Coalition <br> Modificar modos de financiamiento a nivel internacional - Actualmente dependen de fondos a corto plazo - Preveer a largo plazo Cooperación entre distintas instituciones Garantizar acceso a fuentes de datos --- ## Problemass - [What massive database retracted papers reveals about science publishing death penalty](https://www.sciencemag.org/news/2018/10/what-massive-database-retracted-papers-reveals-about-science-publishing-s-death-penalty) - [Retraction DataBase](http://retractiondatabase.org/)