Uma das atividades de um projeto genoma é formar aglomerados (clusters) de todas as seqüências que foram geradas no projeto
Isso é particularmente importante quando se trata de sequenciamentos parciais "single run" de cDNA para geração de Expressed Sequence Tags ou ESTs
Podemos assim saber quantas vezes um gene foi sequenciado e cada aglomerado irá representar um gene!
Mas aglomerar o quê? A única maneira eficiente de descarregar todas as sequências de um organismo do GenBank era usando o BatchEntrez. Mas hoje o botão [Save] do Entrez Nucleotide pode ser usado (veja adiante)
Teste esta maneira específica e rápida de descarregar uma coleção de ESTs, pois o banco de dados dbEST (das ESTs) foi incluído na plataforma Entrez
Volte ao programa do curso e clique em seqüências
Primeiro escreva na janela de busca: "gbdiv_est[PROP]". Isso limita a pesquisa ao banco de ESTs
Escolha os limites: [Molecule > mRNA], [Gene Location > Genomic DNA/RNA], [Segmented Sequences > Show only master of set]
Clique agora em [Preview/Index] para escolher [Organism] Schistosoma mansoni e depois clique [Preview]
Clicando no número abaixo de [Result] as seqüências aparecem, mas antigamente era difícil salvá-las e por isso surgiu o BatchEntrez.
Mude o tipo de arquivo de saída para FASTA e clique em SAVE, aparecerá um aviso, dê [Cancel] e mude o tipo de saída para [Text] ao invés de [HTML] e agora dê [Save] e confirme que quer salvar essas sequências todas.
Hoje é assim. O BatchEntrez tem no entanto uma função para quem roda programas locais e têm como saída uma série de indicadores de seqüências (GI por exemplo) mas não tem as bases. Ou quando sua conecção é ruim: você pode baixar primeiro os GI, dividí-los em arquivos menores e pedir os FASTA de pouco em pouco com o BatchEntrez.
Próximo passo é usar um pacote de softwares de aglomeração, ICATOOLS ou CAP