¡Descarga Práctica número 6, ensayos en blastn, blastp, blastpx y más Guías, Proyectos, Investigaciones en PDF de Bioinformática solo en Docsity!
UNIVERSIDAD NACIONAL SAN CRISTÓBAL DE HUAMANGA
FACULTAD DE CIENCIAS BIOLÓGICAS
ESCUELA PROFESIONAL DE BIOLOGÍA
Búsqueda de Secuencias por BLAST
DOCENTE: ORLANDO CUNDIA
ALUMNOS: Curi Aguilar, Mirella
CURSO: Bioinformatica
HORARIO : Miercoles 7-9 am
ESPECIALIDAD: Biotecnología
CICLO: 2025-I
Ayacucho - Perú
Búsqueda de Secuencias por BLAST OBJETIVOS Comprender el funcionamiento y aplicaciones de la herramienta BLAST para la búsqueda de similitudes entre secuencias biológicas. Realizar búsquedas de secuencias de nucleótidos (ADN/ARN) y proteínas utilizando diferentes variantes de BLAST. Interpretar los resultados obtenidos para identificar posibles homologías, funciones y relaciones evolutivas de las secuencias analizadas. INTRODUCCIÓN La bioinformática ha revolucionado la biología molecular al permitir el análisis eficiente de grandes volúmenes de datos genómicos y proteómicos. Una de las tareas fundamentales en este campo es la identificación de secuencias similares en bases de datos públicas para inferir funciones biológicas, relaciones evolutivas y características estructurales de genes y proteínas. Para ello, se utilizan herramientas computacionales que permiten comparar secuencias de manera rápida y precisa. BLAST (Basic Local Alignment Search Tool) es la herramienta más utilizada para la búsqueda de similitudes locales entre secuencias biológicas. Su algoritmo heurístico permite localizar regiones de alta similitud entre una secuencia de consulta y secuencias en bases de datos, facilitando la identificación de homólogos y la predicción funcional. BLAST cuenta con varias variantes adaptadas para diferentes tipos de secuencias y análisis, como blastn para nucleótidos, blastp para proteínas, blastx para traducción de nucleótidos a proteínas, entre otros. El uso de BLAST es esencial para la caracterización molecular, ya que permite identificar genes o proteínas desconocidas, explorar su distribución en diferentes organismos y analizar su posible función biológica. Además, BLAST es una herramienta clave en estudios evolutivos y en la validación de datos experimentales, como secuencias obtenidas por técnicas de secuenciación automática. MATERIALES Computadora con acceso a internet. Navegador web actualizado. Acceso a la página oficial de BLAST del NCBI: https://blast.ncbi.nlm.nih.gov/Blast.cgi Secuencias de nucleótidos y proteínas para análisis (proporcionadas por el docente o seleccionadas por el estudiante). Bloc de notas o procesador de texto para registrar resultados y observaciones. PROCEDIMIENTO
- Cobertura de consulta (Query Cover) : 100% en casi todas las secuencias
- Valor E (E-value) : desde 0.0 hasta 1e- 31 , lo que indica alineamientos altamente significativos
- Identidad porcentual (Per. Ident) : desde 96.72 % hasta 100 %
- Tiempo estimado de ejecución: entre 10 a 20 segundos.
- ¿Qué diferencias hay en los resultados? Indique con pruebas e interprete. Las secuencias de Drosophila melanogaster muestran una identidad del 100 % , lo que indica que son transcritos idénticos o casi idénticos del gen glutathione S-transferase D. Las otras especies de Drosophila (mauritiana, simulans, sechellia) muestran un ligero descenso en la identidad (96.72%–97.21%), lo que refleja variaciones evolutivas del mismo gen en especies diferentes. Aunque la identidad baja ligeramente, el valor E sigue siendo 0.0 o muy bajo, lo que indica que la similitud sigue siendo muy significativa. La diferencia en Query Cover del 92% en una entrada (M97702.1) sugiere que esa secuencia no cubre toda la consulta o que tiene regiones no alineadas. 2. Búsqueda de secuencias de proteínas (BLASTP)
- En la página principal de BLAST, seleccione Protein BLAST (blastp) para buscar similitudes con secuencias de proteínas.
- Ingrese la secuencia de proteína o el número de acceso, por ejemplo, NP_ (proteína humana).
- Seleccione la base de datos adecuada, como "nr" (no redundante de proteínas).
- Ajuste los parámetros de acuerdo a sus necesidades.
- Ejecute la búsqueda y revise los resultados, enfocándose en las regiones alineadas y la puntuación de similitud.
Responda a las preguntas
- ¿De acuerdo a la configuración que eligió cuales parámetros se ejecutaron en su computadora y en cuánto tiempo? Tipo de búsqueda : Protein BLAST (blastp) Secuencia de entrada : Número de acceso NP_524326.1 (glutathione S-transferase D1 de Drosophila melanogaster ) Base de datos seleccionada : nr (base de datos de proteínas no redundantes) Organismo: No se especificó un organismo en el filtro, por lo tanto, la búsqueda se realizó contra todas las proteínas de la base de datos. Cobertura de consulta (Query Cover) : 100% en todas las coincidencias relevantes Algoritmo usado: BLASTP con parámetros por defecto (matriz de sustitución BLOSUM62, penalización por gap estándar) Tiempo estimado de ejecución : entre 15 y 25 segundos.
- ¿Qué diferencias hay en los resultados? Indique con pruebas e interprete. Las tres primeras secuencias pertenecen a diferentes anotaciones del mismo gen/proteína en Drosophila melanogaster , por eso muestran 100% de identidad, con E-values extremadamente bajos (2e-153 a 5e-152), lo que indica coincidencias exactas o casi idénticas. Las siguientes secuencias corresponden a otras especies del género Drosophila, como yakuba , simulans , kikkawai , biarmipes , santomea , etc. Todas presentan altos niveles de identidad (96.65%–98.09%) y también valores E muy bajos, lo que indica una fuerte relación evolutiva.
Responda a las preguntas
- ¿De acuerdo a la configuración que eligió cuales parámetros se ejecutaron en su computadora y en cuánto tiempo? Tipo de búsqueda : BLASTx (traducción de nucleótidos a proteínas en los 6 marcos de lectura, y comparación con base de datos de proteínas) Secuencia de consulta : NM_000518.5 (gen de la beta-globina humana) Base de datos: nr (secuencias de proteínas no redundantes) Organismo (opcional): en este caso parece que no se filtró por Homo sapiens , ya que se recuperaron varias variantes E-value: 0. Formato de salida: Estándar por defecto (aunque se mencionó tabular, tu captura muestra el formato gráfico/tabular mixto) Tiempo estimado de ejecución: Aproximadamente 20 a 30 segundos , dependiendo del tráfico del servidor del NCBI y la velocidad de internet.
- ¿Qué diferencias hay en los resultados? Indique con pruebas e interprete. Búsqueda con tblastn (NP_000509.1 vs. nucleótidos traducidos):
- Seleccionar "tblastn" en NCBI BLAST.
- Ingresar el código NP_000509.1 como secuencia consulta.
- Configurar:
- Database : Nucleotide collection (nr/nt).
- Genetic code : Standard (1).
- Max target sequences : 50.
- Identificar coincidencias en genomas de primates (e.g., Pan troglodytes , Accessión: XM_016941658.1) Responda a las preguntas
- ¿De acuerdo a la configuración que eligió cuales parámetros se ejecutaron en su computadora y en cuánto tiempo? Tipo de búsqueda : BLASTx (traducción de nucleótidos a proteínas en los 6 marcos de lectura, y comparación con base de datos de proteínas) Secuencia de consulta : NM_000518.5 (gen de la beta-globina humana) Base de datos: nr (secuencias de proteínas no redundantes)
Cuestionario
- ¿Qué es BLAST y cuál es su función principal en bioinformática?
BLAST (Basic Local Alignment Search Tool) es una herramienta bioinformática
desarrollada por el NCBI que permite comparar una secuencia biológica (ADN, ARN o
proteína) contra una base de datos para identificar regiones de similitud.
Su función principal es encontrar homologías entre secuencias, lo cual es útil para:
• Identificar genes o proteínas similares.
• Inferir funciones biológicas.
• Estudiar evolución molecular.
• Diseñar primers y marcadores genéticos.
- ¿Cuál es la diferencia entre BLASTN y BLASTP?
BLASTN compara una secuencia de nucleótidos (ADN o ARN) contra una base de
datos de secuencias nucleotídicas.
BLASTP compara una secuencia de proteínas (aminoácidos) contra una base de datos
de proteínas.
En resumen:
BLASTN = ADN vs ADN
BLASTP = Proteína vs Proteína
- ¿Qué ventaja ofrece blastx sobre blastn al analizar secuencias nucleotídicas?
BLASTX traduce una secuencia de ADN/ARN en los seis posibles marcos de lectura
para compararla con proteínas.
Esto ofrece la ventaja de:
• Detectar proteínas codificadas, aunque el marco de lectura no sea conocido.
• Identificar posibles genes funcionales en regiones no anotadas.
• Evitar errores al trabajar con ARNm o ADN genómico con intrones/exones.
BLASTX permite encontrar homologías proteicas a partir de una secuencia de ADN , lo
cual BLASTN no puede hacer directamente.
- Describa los pasos para ajustar el parámetro e-value en una búsqueda tblastn
TBLASTN compara una proteína contra una base de datos de secuencias de nucleótidos
traducidas.
Pasos para ajustar el E-value en TBLASTN:
• Acceder a https://blast.ncbi.nlm.nih.gov/Blast.cgi
• Seleccionar TBLASTN.
• Ingresar la secuencia de proteína o número de acceso.
• En la sección "Algorithm parameters" , buscar el campo "Expect threshold" (E-
value).
• Cambiar el valor por defecto (10) a uno más estricto, por ejemplo 0.001, para
reducir resultados no significativos.
• Ejecutar la búsqueda.
- ¿Qué información proporciona el valor E (expect) en los resultados de BLAST?
El valor E (expect) indica el número esperado de coincidencias aleatorias con una
puntuación igual o superior al alineamiento observado, dado el tamaño de la base de
datos.
• Un valor E bajo (cercano a 0) indica alta significancia.
• Un valor E alto sugiere que la coincidencia puede deberse al azar.
Ejemplo:
• E = 0 → coincidencia extremadamente significativa
• E = 1 → se espera 1 coincidencia de este tipo por azar
- ¿Por qué es importante seleccionar la base de datos adecuada para realizar una búsqueda BLAST?
Porque afecta la precisión, relevancia y velocidad del análisis.
Una base de datos adecuada:
• Reduce resultados irrelevantes (por ejemplo, limitando a Homo sapiens ).
• Mejora la especificidad de la comparación.
• Evita comparar con organismos o secuencias innecesarias.
• Permite ajustar el análisis al objetivo del estudio (por ejemplo, bases de datos de
proteínas vs. genes codificantes, o de una taxonomía específica).
- Explique brevemente cómo interpretar un alineamiento obtenido en BLAST.
Un alineamiento muestra cómo se comparan dos secuencias, con detalles como:
• Identidad: % de coincidencias exactas entre las secuencias.
• Query cover: % de la secuencia consulta alineada con el sujeto.
• E-value: qué tan significativa es la coincidencia.
• Puntaje: mide la calidad del alineamiento (mayor puntaje = mejor alineamiento).
• Alineamiento: muestra letra por letra los residuos iguales y diferentes.
Para interpretar:
• Alta identidad + bajo E-value + buena cobertura = secuencia homóloga fuerte