Задача: определить, где в данном фрагменте закодированы белки, похожие на известные белки родственной бактерии (кишечной палочки).
Получим фрагмент генома Regiella insecticola из заданной записи EMBL с заданным началом, длиной 7000 нуклеотидов:
seqret -sask Reads and writes (returns) sequences Input (gapped) sequence(s): ac192956.fasta Begin at position [start]: 63001 End at position [end]: 70001 Reverse strand [N]: N output sequence(s) [ac192956.fasta]: output.fastaОпределим, где в этом фрагменте закодированы белки, похожие на известные белки бактерии Escherichia coli штамма K12.
Инструменты для решения поставленной задачи будут описаны в ходе выполнения задания.
seqret sw:*_ecoliСоздадим индексные файлы для работы с помощью программ пакета BLAST.
formatdb -i bibl.fasta -n index -p t
getorf -minsize 240 -find 1 -table 11 Finds and extracts open reading frames (ORFs) Input nucleotide sequence(s): output.fasta protein output sequence(s) [ac192956.orf]: output.orf
blastall -p blastp -d index -i output.fasta -e 0.001 > blast.out
3'-[<= ACCD, 3-968]-[<= DEDA, 1069-1728]-[<= TRUA, 1766-2137]-[<= TRUA, 3165-3530]-[<= PDXB, 3534-4652]--[<= YQIC, 6127-6295]------------------------5' 5'------------------------------------------------------------------------------------------------------------------------------[=> RIBB, 6739-6999]-3'
ribB 3181829..3182482 (-) accD 2431032..2431946 (-) dedA 2432102..2432761 (-) truA 2432844..2433656 (-) pdxB 2434735..2435871 (-) yqiC 3182796..3183146 (+)Все эти гены распологаются относительно близко друг к другу в геноме кишечной палочки. Заметно, что на исследуемом участке они располагаются так же близко. Можно заметить, что все гены (кроме ribB и yqiC) располагаются на той же по направлению цепи. Эти два гена меняют расположения. Но все же можно сделать вывод о присутствии консервативности в этих последовательностях.