COntig Humano - 10780 pares de base

A análise do contig humano foi realizada inicialmente com o programa "repeatmasker", que visa ocultar da seqüência analisada os elementos repetitivos não codificantes (SINEs, LINEs, ALUs...) os quais atrapalham a procura de genes.
Na figura e na tabela abaixo encontram-se os elementos repetititivos encontrados, bem como a proporção dos mesmos no contig total.



Summary:
==================================================
file name: RM2sequpload_21109
sequences:            1
total length:     10780 bp  (10780 bp excl N-runs)
GC level:         42.67 %
bases masked:      4749 bp ( 44.05 %)
==================================================
               number of      length   percentage
               elements*    occupied  of sequence
--------------------------------------------------
SINEs:               10         1996 bp    18.52 %
      ALUs            6         1520 bp    14.10 %
      MIRs            4          476 bp     4.42 %

LINEs:                5         2062 bp    19.13 %
      LINE1           2          970 bp     9.00 %
      LINE2           3         1092 bp    10.13 %
      L3/CR1          0            0 bp     0.00 %

LTR elements:         0            0 bp     0.00 %
      MaLRs           0            0 bp     0.00 %
      ERVL            0            0 bp     0.00 %
      ERV_classI      0            0 bp     0.00 %
      ERV_classII     0            0 bp     0.00 %

DNA elements:         2          596 bp     5.53 %
      MER1_type       0            0 bp     0.00 %
      MER2_type       0            0 bp     0.00 %

Unclassified:         0            0 bp     0.00 %

Total interspersed repeats:     4654 bp    43.17 %


Small RNA:            0            0 bp     0.00 %

Satellites:           0            0 bp     0.00 %
Simple repeats:       0            0 bp     0.00 %
Low complexity:       2           95 bp     0.88 %
==================================================

Observa-se que a porcewntagem de elementos repetitivos é considerável, ficando en torno de 40%.
A segunda etapa da análise consistiu em submeter a seqüência (já sem os elementos repetitivos) aos programas BLASTx e BLASTn para a procura de possíveis genes contidos nesse contig. Ambos os programas não localizaram nenhum gene dentro do contig.
Finalmente, o contig foi submetido a programas "exon finder" e "orf finder", na tentativa de se localizar um possível gene ainda não caracterizado, o qual não seria, portanto, encontrado pelos programas BLAST (já que os mesmos se baseiam na homologia com algo já existente).
O único programa a encontrar um possível gene foi o GENSCAN, e encontrou o seguinte polipeptídeo:

>hum|GENSCAN_predicted_peptide_1|153_aa MGKSAYFSISQGPDGDFVSGQNRAQGCGFCGSAVRTAGTKAVNGIMLSRNVLGKEMPSES TNILAVVLNPHSLDSPGAAAQEPGPWPIALSGSPSPAAPSSGWLHCNGQDIRLQEIPGAS LHPVQPEYSLPLKELEMIIFPVTGWAVPHATSX

A chance desse