AULA 7 - Alinhamento de Múltiplas sequências

  1. Pratique o uso de recursos do NCBI para obter grupos de sequências no formato FASTA que você pode usar para o alinhamento de múltiplas sequências. Selecione como palavra-chave cytochrome (outras sugestões são ferritin, S100 ou trypsin). Em uma primeira abordagem, insira essa pesquisa na home page do NCBI e siga o link para HomoloGene. Selecione um item com diversos membros para um estudo mais aprofundado. Nesta página, à esquerda, escolha Show Multiple Alignment . Na página seguinte escolha Download e salve todas as sequências. Em uma segunda abordagem, repita este exercício começando na página do CDD (o banco de dados de domínio conservado). Aqui, há identificadores Pfam, CDD, SMART e / ou COG. Selecione uma entrada em com um identificador de CDD (como cd00904 para ferritin). Aqui, um alinhamento de múltiplas sequências é mostrado em Sub-family Hierarchy . Em uma terceira abordagem, execute uma pesquisa BLASTP usando uma consulta como a cadeia leve de ferritina (NP_000137) e inspecione os alinhamentos de pares para a consulta. Selecione um grupo de 10 proteínas clicando na caixa ao lado de cada uma, e clique em Multiple Alignment. Estas dez proteínas aparecem em uma página do NCBI Cobalt (Constraint-based Multiple Alignment Tool). Observe os diversos campos e teste as diferentes opções.

  2. Usando as sequências formatadas com FASTA do problema (1), execute vários alinhamentos de múltiplas sequências usando programas disponíveis na Internet: MAFFT, MUSCLE e T-COFFEE. Salve e compare cada resultado. Como eles diferem? Como você pode avaliar qual é provavelmente o mais preciso? Quando aplicável, tente ajustar os parâmetros, como matrizes de pontuação, existêcia de gaps e penalidades de extensão, ou o número de iterações para ver os efeitos nos alinhamentos.

  3. Adrenoleucodistrofia ligada ao cromossomo X (X-ALD) é a doença hereditária mais comum afetando os peroxissomos (uma organela subcelular envolvida no metabolismo de lipídeos e outras funções metabólicas). A doença é causada por mutações no gene ABCD1 na banda q28 do cromossomo X humano (Xq28) que codifica a proteína ALD (ALDP). Em humanos, imagina-se que existam quatro proteínas relacionadas a ALDP nos peroxissomos: ALDP (NP_000024; com 745 resíduos de aminoácido), ALDR (NP_005155, 740 resíduos), PMP70 (NP_002849, 659 resíduos) e PMP70R (NP_005041, 606 resíduos). Duas proteínas tipo ALDP de levedura também foram identificadas, Pxa1p (NP_015178) e Pxa2p (NP_012733). Estas proteínas são todas parte de uma proteína muito maior dos ATP-binding cassette (ABC) transporters, incluindo o regulador transmembrana de condutância da fibrose cística (CFTR) e proteínas de resistência a múltiplas drogas (MDR).
    - Crie um alinhamento múltiplo para a família de ALDP de proteínas humanas, de camundongo e de levedura. Idenfique o sítio presumido de ligação de nucleotídeo, GPNGCGKS. Este motivo é perfeitamente conservado?

  4. O quagga era um animal africano que agora está extinto. Ele se parecia parte com um cavalo e parte com uma zebra. Em 1872, o último quagga vivo foi fotografado. DNA mitocondrial foi obtido e sequenciado de um espécime de quagga de um museu. Faça um alinhamento múltiplo de sequências do DNA mitocondrial de quagga (Equus quagga boehmi), cavalo (Equus caballus), e zebra (Equus burchelli). A qual animal o quagga estava mais relacionado?

  5. Para determinar a diversidade da placa subgengival humana foram utilizados métodos independentes de cultivo (Paster et al., J. Bacteriol. 183:3770-3783, 2001). Examine os resultados em PopSet na página inicial do NCBI. Identifique uma porção dos alinhamentos múltiplos de sequências que você pode melhorar manualmente.

  6. Você identificou os seguintes números de acesso para lipocalinas:
Proteína humana ligadora de retinol NP_006735
Apolipoproteína D humana NP_001638
Proteína ligadora de odorante de rato P08937

    Cole estas sequências no formato FASTA no CLUSTAL Omega. Crie um alinhamento múltiplo dessas sequências.

LINKS:

Bancos de dados de alinhamentos múltiplos de sequências

Nome

Descrição

URL

BLOCKS

Biblioteca HMM de

perfil tipo HMM; sem gaps

http://blocks.fhcrc.org/

CDD

Banco de dados de domínios conservados
(Pfam mais SMART)

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=cdd

Interpro

Uma fonte unificada combinando PROSITE,
PRINTS, ProDom e Pfam, SMART, e TIGRfam

http://www.ebi.ac.uk/interpro/index.html

iProClass database

Do “Protein Information Resource”

http://pir.georgetown.edu/iproclass

Pfam

Biblioteca de perfil HMM

http://pfam.xfam.org/

PRINTS

“fingerprints” de proteínas do SwissProt/TrEMBL

http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/

ProDom

Usa PSI-BLAST para agrupar o SWISS-PROT

http://prodom.prabi.fr/prodom/current/html/home.php

PROSITE

Um dicionário de motivos de proteínas

http://www.expasy.ch/prosite/

SMART

“Simple Modular Architecture Research Tool”

http://smart.embl-heidelberg.de/

TIFRFAMs

Biblioteca HMM de famílias de proeínas

http://blast.jcvi.org/web-hmm/

 

Programas para alinhamento múltiplo de sequências disponíveis na W3 

Programa

Descrição

URL

AMAS (Analyse Multiply
Aligned Sequences)

Na University of Dundee; usado para analisar MSAs pré-construídos

http://www.compbio.dundee.ac.uk/www-amas/

UTOPIA

Instrumentos para análise de sequência e estrutura de proteínas (instale no Windows XP, Vista, 7, 8; Mac OS X)

http://utopia.cs.manchester.ac.uk/

Programas para alinhamento múltiplo online

No European Bioinformatics Institute
e outros sítios

http://www.clustal.org/download/current/

Clustal W

Baixe por FTP

ftp://ftp.ebi.ac.uk/pub/software/clustalw2/

DIALIGN

Especialmente útil para MSA locais;
Da Universidade de Bielefeld, DE

http://bibiserv.techfak.uni-bielefeld.de/dialign/

MultAlin

Do INRA (http://www.inra.fr/), Toulouse

http://multalin.toulouse.inra.fr/multalin/

T-COFFEE

Mais lento mas mais preciso do que ClustalW para proteínas com relacionamentos distantes

http://www.tcoffee.org/Projects/tcoffee/