AULA 08 - Filogenia Molecular e evolução
Estas são as
questões para o PAUP instalado num Mac
1. Input de alinhamento:
- Procure por lipocalin no site do HomoloGene do NCBI.
- Na lista gerada procure pela major urinary protein de Mus musculus (HomoloGene:7434).
- Entenda qual a função dessas proteínas lendo o resumo de um dos artigos listados na página.
- No topo da página das major urinary proteins à direita em cima, clique em Download.
- Na página seguinte abre-se um box que lista os genes, os mRNAs e as sequências de aminoácidos das proteínas.
- Escolha todas e faça o download de Protein e mRNA.
- Essas proteínas são parálogas ou ortólogas?
- O arquivo salvo no seu disco deve conter 22 sequências.
- Edite as sequências, removendo toda informação supérflua do cabeçalho (a linha que contem o síbolo de ">") ou seja, deixe só o nome do gene (Mupn).
- Alinhe todas as sequências (nucleotídeos e aminoácidos) utilizando o CLUSTALX ver. 2 que você acabou de instalar no Windows.
- Salve os alinhamentos no formato Clustal.
- Converta
para um formato legível (via Conversion Tools do EBI)
- Abra uma nova janela no seu
“browser” e vá para a
página do Sequence Format Conversion Tools (https://www.ebi.ac.uk/Tools/sfc/emboss_seqret/).
- Cole
suas sequências em FASTA na janela do EMBOSS Seqret.
Escolha o formato Nexus/paup interleaved format como output. De um clique duplo em SUBMIT).
- Pegue
o alinhamento gerado e copie no “clipboard” de
seu computador. Ou então copie-o num arquivo de texto do
Notepad. Comece a
cópia com “#NEXUS” e termine com os símbolos “end;”.
- Importe
para o PAUP
[Se
você não tiver o PAUP instalado no seu computador, tente
usar o MEGA (http://www.megasoftware.net/)
para criar as árvores]
- Abra o programa PAUP.
- Abra um novo arquivo em “File”,
“New”.
- Cole o seu alinhamento.
- No menu de “File”, escolha
“Execute”.
- Se voce receber uma mensagem de
erro voce deve tentar
diversas alternativas tais como.
- Procure
a linha “format datatype=protein interleave missing=-;” e mude o
hífen (-)
nesta linha por um ponto (.)
- Em
“Edit” escolha “Find”. Troque em todos os pontos o símbolo “/”
por “_”.
- Quando
o comendo “Execute” tiver sucesso, voce será notificado que
“Data matrix has 10 taxa (i.e., 10 proteínas) and 163 caracteres
(aminoácidos)”.
- Análise
da árvore baseada em Parcimônia Máxima (MP)
(a)
Procura heurística
- Em
“Analysis”, selecione “Parsimony”.
- Em
“Analysis”, escolha “Heuristic search”. Clique “Search” e use as
definições “default” para encontrar a árvore.
- Uma
vez que a procura termina, a pequena janela com “Heuristic Search
Status” terá um ícone clicável de fechamento
(“close”). O programa descre o número de rearranjos de
árvores que foram tentados e os “scores” para a(s) melhor(es)
árvore(s).
- Olhe
a árvore. Vá até o menu de “Trees” e escolha
“Print Tree”. Voce terá a opção de ver um
filograma ou cladograma sem raiz entre diversas opções.
Na apresentação do filograma, o comprimento dos ramos
são proporcionais às mudanças de
aminoácidos, e a árvore é acompanhada por uma
barra de escala. Por outro lado, os comprimentos dos ramos não
são proporcionais a mudanças de aminoácidos no
cladograma. Um cladograma mostra relações evolutivas
dentro de espécies e populações. Além disso
se voce tiver achado mais de uma árvore com o mesmo “best
score”, voce terá a opção de ver uma determinada
árvore individualmente ou mosrar todas as árvore ao mesmo
tempo.
- Quantas
mudanças de aminoácidos ocorrem no ramo mais curto e no
ramo mais longo da sua árvore? Quais OTUs (taxa) estão
conectados por esses ramos?
- Se
voce tiver mais de uma árvore, voce pode escolher uma
árvore consenso. No menu “Trees”, selecione “Compute consensus”.
(b)
Avaliação das Árvores
a.O princípio do
teste da árvore aleatória é comparar o “score” da
árvore encontrada a
distribuição de valores de “score” de X
árvores geradas aleatoriamente começando com o seu
alinhamento.
- Avalie
a árvore por distribuição de freqüência
dos comprimentos de 100, 1000 e 10.000 árvores aleatórias.
- Vá
ao ícone “Analysis” e use a opção “Evaluate random
tree”. Mude o número de árvores aleatórias e veja
como a média e o desvio padrão se alteram.
- O
“score” da sua árvore encontrada por busca heurística
é significantemente melhor que a distribuição de
“scores” das árvores geradas aleatoriamente?
- Faça
de novo uma busca heurísitca pela árvore mais
parcimoniosa e cheque o “score”. Quão bom é o “score”
desta vez? Uma vez que voce está trabalhando com alinhamento de
proteínas de 10 taxa (OTUs), nós podemos fazer uma busca
exaustiva para a árvore com parcimônia máxima.
Vá a “Analysis” e escolha “Exhaustive search”. Que “score” voce
obteve e qual o valor em relação ao(s) “score(s)” que
voce obteve usando a estratégia heurística?
b.
O teste de “bootstrap” é um outro tipo de teste de
re-amostragem. O princípio é colher amostras
aleatórias de cada uma das colunas
de sequências de aminoácidos alinhadas originalmente.
Os dados recém-gerados
terão tamanho idêntico ao alinhamento original. O
“bootstrap” descreve o
porcento de vezes que um dado clado é apoiado.
- Faça
o teste de “bootstrap”. Vá no ícone “Analsis” e escolha
“Bootstrap/Jacknife”. Então troque o número de
amostragem. Tente 1000 e 10.000 replicas de amostragem com
“replacement”.
- Após
cada teste voce pode ver a árvore -> “Trees” -> “Print”
-> “Bootstrap Consensus” -> “Preview”. (O tipo de gráfico
deve ser mudado para “unrooted”).
- Analise
a árvore com 10.000 réplicas de amostragem. Baseado nos
seus valores de “bootstrap”, quantos clados fortemente apoiados
(valores de “bootstrap” > 70%) estão presentes na sua
árvore e quais taxa eles compreendem?
- Pode
voce determinar se membros de um clado particular são
parálogos ou ortólogos? Que tipo de
informação voce precisa para fazer esta inferência?
- Mude
os arquivos de entrada
- Volte
para o banco de dados CDD e recupere a família de lipocalina
“pfam00061” (pontos 1-3 na questão 1 desta aula).
- Ao
invés de escolher “10 most diverse sequences” como está
no default (veja ponto 4 da questão 1), escolha “top listed
sequences” na opção de sequências do
alinhamento que será enviado. (alternativamente, p.ex., voce
pode aumentar o input de sequências até 25).
- Repita
o exercício acima e observe as diferenças.
- Voce
pode ajustar o “input” de sequências. Escolha a
opção “Selected sequences” e teste as sequências
escolhidas listadas em baixo deste menu (veja o
ponto 4 da questão 1).
- Análise de árvores baseado em método de
distância. Este método é baseado na
comparação do número de diferenças por
pares em sequências e o uso das distâncias computadas
entre as sequências para construir uma árvore.
Infelizmente, algumas destas mutações (especialmente se
voce está construindo uma árvore de DNA e não uma
de proteína) pode passar desapercebida se a
mutação ocorre em seguida a outra que volta para o
caráter original.
Em
“Analysis” escolha a opção
“Distance”. Então faça uma procura heurística pela
árvore. Veja a árvore e veja
se os taxa (OTUs) se separam como eles fizeram no método de
parcimônia máxima.
Além disso, faça uma avaliação da sua
árvore com teste aleatório e “bootstrap”
como voce fez com a árvore acima.
- Análise de árvores baseado no método de
máxima verossimilhança. Este é um
método de construção de árvore baseado em
caracteres (como o método de parcimônia). Neste caso, as
árvores são avaliadas baseado na verossimilhança
de produzir os dados observados. O programa PAUP permitirá que
voce construa a árvore somente com sequências
alinhadas de DNA.
Um
método de obter sequências alinhadas
de DNA é recuperar o alinhamento do banco de dadosPopSet.
(vá ao domínio do
NCBI e escolha Entrez -> clique PopSet -> procure no PopSet o seu
alinhamento favorito). Cole o alinhamento formatado para PHYLIP do
PopSet no
ReadSeq e faça como acima.
Uma
árvore baseada no método de máxima
verossimilhança a partir de alinhamentos de sequências de
aminoácidos pode ser
criada com o programa Puzzle (http://www.tree-puzzle.de).