Análisis de una secuencia anónima

De una secuencia de nucleótidos desconocida podemos obtener una información increíble. A continuación mostraré el análisis de una secuencia "anónima", que llamaremos "a4633109". Es la siguiente:
http://pastebin.com/aSF4QQUm

1. Longitud
2. Contenido G+C
3. ¿Codifica para algún gen?
4. ¿De qué especie es?
5. ¿Dónde se prevee información genética?
6. Composición en cada nucleótido
7. Datos del gen
8. Conservación evolutiva y proteínas
9. Exones
10. Posibles marcos de lectura que den genes (ORF)


1. Longitud

Para la longitud hay 2 formas de determinarla.
Algunos procesadores de textos pueden decirla, pero lo más específico para ello es usar una función del programa informático EMBOSS, infoseq (búsqueda fácil si pulsamos sort alphabetically ] ).
Pegamos la secuencia en formato FASTA (documento de texto (.txt o .fasta) que tenga en la primera línea un ">" seguido de una descripción (opcional), y "Enter". La secuencia que utilizaremos está en formato FASTA.
Display 'length' column? → Yes
Hay otras opciones que nos hará falta activar para más adelante.
Run infoseq.
98265 NT

2.  Contenido G+C

Usamos infoseq (ver apartado 1.) Nos sirve para preveer información genética (ver apartado 5.)
Display 'percent GC content' column? → Yes.
35'05%

3. ¿Codifica para algún gen?

Esto es a priori el paso que nos parece más complicado. Para ello usaremos la herramienta BLASTn de NCBI.
Pegamos la secuencia en formato FASTA (mirar apartado 1) o la subimos desde el ordenador, y hacemos click en BLAST (hay 2 botones con BLAST, funcionan los dos)
Aparecerá una ventana emergente. Se refresca cada poco tiempo. Busca en una amplia base de datos coincidencias de letras con la secuencia que tenemos, y nos dará una vez encuentre resultados la información de las secuencias conocidas que más se le parecen.
Si son prácticamente iguales, ya podremos trabajar sobre esa o esas secuencias. y todo es más fácil. Hacemos click en la secuencia que nos parezca que es - la más similar es la primera, y debe aparecer en rojo, con alta coincidencia; E value tiende a 0 y Max ident debe ser superior al 95%, cuanto más mejor.
Codifica para el NM_014464.3, tubulointerstitial nephritis antigen (TINAG)

4. ¿De qué especie es?

Por el mismo procedimiento que en el apartado 3.
Nos resulta la primera entrada que es del TINAG de Homo sapiens.


5. ¿Dónde se prevee información genética?


El apartado 2 nos da el contenido de G+C, pero analizando exhaustivamente dónde es mayor dentro de la secuencia podremos deducir que ahí pueden situarse exones.
Para ver dónde hay más C+G, podemos usar en EMBOSS (ver apartado 1.), la función freak, y nos muestra una gráfica o una tabla de datos para elaborar aun gráfica. Marcamos en Residue letters, GC o CG. Contará dónde están estos dinucleótidos.
EMBOSS también ofrece otros programas que elaboran gráficas de contenido C+G como cpgplot (en la tercera gráfica de esta función nos define picos aislados donde considerar una isla CpG, considerar bajar la longitud de islas CpG a como mucho 50 en la secuencia problema), o newcpgreport.
Localización (NT)
Longitud
%G+C
Obs/Esp
5500 >50 54 1'5
27000 >50 62 0'8
38000 >50 61 1
46500 >50 51 1'2
49000 >50 50 1'2
85500 >50 57 1'1
93000 >50 52 0'7

*Esta tabla está hecha manualmente de los datos extraídos de un análisis en cpgplot

6. Composición en cada nucleótido

También en el paquete EMBOSS (ver apartado 1.), podemos usar compseq, y escribir el número 1 en Word size to consider (e.g. 2=dimer).
31904 A, 17084 C, 17358 G, 31919 T
Podemos determinar de dinucleótidos, trinucleótidos, etc, si subimos el número.

7. Datos del gen

Con la identificación del gen que es (apartado 3.), es bastante sencillo. Usamos la base de datos RefSeq de NCBI, el Genome browser de UCSC (en este caso de Homo sapiens, cambiar si encontramos de otra especie si está en la base de datos)  una vez identificamos el gen en el cromosoma, etc. Nos da también datos de su función.
En el genome browser tendremos más información si ponemos en "enter position, gene symbol or search termns" lo que ya sabemos del gen, y nos da información gráfica a nivel del cromosoma
En la misma página donde identificamos que era el gen TINAG en el NCBI nos provee datos de todos sus exones, CDS, y secuencia exacta de nucleótidos que se traducen a ARN (Las T son uracilos (U) en vez de timinas, pero en las bases de datos se escribe todo a nivel de ADN), y la localización cromosómica en FEATURES → source → /map="6p12.1"
Función: Glucoproteína en hígado, bajo membranas epiteliales de la cápsula de Bownman y los túbulos proximales y distales. Expresión y regulación de su desarrollo por nefrogénesis. 


8. Conservación evolutiva y proteínas

Para ello necesitamos saber la secuencia de proteína que codifica(n) las) proteína(s) de el/los genes que se encuentran en nuestra secuencia anónima. A partier de los datos que tengamos en el gen que hemos encontrado en el apartado 3 ( NM_014464.3, tubulointerstitial nephritis antigen (TINAG) ). La secuencia proteica está en CDS → /translation.
Buscamos en NCBI el mismo nombre de la secuencia de mRNA, pero con diferentes organismos.
Creamos un archivo MULTIFASTA simplemente copiando en el mismo archivo de texto los distintos FASTA de cada proteína en diferentes organismos. Veremos que tiene longitud similar, y casi los mismos nucleótidos. Para TINAG es, transformada en formato FASTA (ver apartado 1.): > MWTGYKILIFSYLTTEIWMEKQYLSQREVDLEAYFTRNHTVLQG TRFKRAIFQGQYCRNFGCCEDRDDGCVTEFYAANALCYCDKFCDRENSDCCPDYKSFC REEKEWPPHTQPWYPEGCFKDGQHYEEGSVIKENCNSCTCSGQQWKCSQHVCLVRSEL IEQVNKGDYGWTAQNYSQFWGMTLEDGFKFRLGTLPPSPMLLSMNEMTASLPATTDLP EFFVASYKWPGWTHGPLDQKNCAASWAFSTASVAADRIAIQSKGRYTANLSPQNLISC CAKNRHGCNSGSIDRAWWYLRKRGLVSHACYPLFKDQNATNNGCAMASRSDGRGKRHA TKPCPNNVEKSNRIYQCSPPYRVSSNETEIMKEIMQNGPVQAIMQVREDFFHYKTGIY RHVTSTNKESEKYRKLQTHAVKLTGWGTLRGAQGQKEKFWIAANSWGKSWGENGYFRI LRGVNESDIEKLIIAAWGQLTSSDE

En nuestro ejemplo, usaremos este multifasta: http://pastebin.com/2BNG7uGw
Usamos el alineador de secuencias ClustalW2 de EBI, y el archivo de testoq eu nos sale lo copiamos en la herramienta de árbol filogenético de ClustalW2 de EBI.
También podemos usar la herramienta Phylodendron de la universidad de Indiana



















9. Exones

La información de los exones podemos sacarla de la misma base de datos de genes del NCBI según hicimos en el apartado 3. Cada apartado de exon en FEATURES, o señalando que nos salga un gráfico, en nuestro ejemplo:


























10. Posibles marcos de lectura (ORF)

Con ORF finder de NCBI indicando el Accesion number (NM_014464.3 en nuestro ejemplo) de la
secuencia. Nos dice si est´< ne la hebra apralela o antiparalela, y desde qué nucleótido empieza los tripletes para la traducciónd e proteínas. Así mismo también se peude seleccionar cada secuencia y se ve cóo coifica a proteínas, donde se inciia la transcripción y donde termina, con una interfaz bastante sencilla.

No hay comentarios: