Поиск в геноме участков, кодирующих белки, похожие на заданный
Заданным является белок SCO1_BACSU, чья аминокислотная последовательность:
>SCO1_BACSU P54178 SCO1 protein homolog (BsSco) (Precursor)
MKVIKGLTAGLIFLFLCACGGQQIKDPLNYEVEPFTFQNQDGKNVSLESLKGEVWLADFI
FTNCETICPPMTAHMTDLQKKLKAENIDVRIISFSVDPENDKPKQLKKFAANYPLSFDNW
DFLTGYSQSEIEEFALKSFKAIVKKPEGEDQVIHQSSFYLVGPDGKVLKDYNGVENTPYD
DIISDVKSASTLK
Поиск осуществлялся программой tblastn по полному геному бактерии G.thermodenitrificans
Таблица N1. Поиск гомологов белка SCO1_BACSU в геноме бактерии G.thermodenitificans.
Число находок с E-value < 0.001 |
3 |
E-value лучшей находки |
4е-92 |
Название последовательности с лучшей находкой |
CP000557 |
Координаты лучшей находки (от-до) |
1759003-1758488 |
Доля последовательности белка, вошедшая в выравнивание и лучшей находкой |
96% |
Поиск гомологов некодирующих последовательностей программой blastn
Для поиска гомологов всех тРНК, взятых из генома Bacillus subtilis BSn5 в полном геноме G.thermodenitrificans использовались команды:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 1e-2 -outfmt "6 qseqid" -out aaa_1.txt; uniq -c aaa_1.txt > bbb_1.txt
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 1e-2 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt "6 qseqid" -out aaa_2.txt; uniq -c aaa_2.txt > bbb_2.txt
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 1e-2 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -outfmt "6 qseqid" -out aaa_3.txt; uniq -c aaa_3.txt > bbb_3.txt
Командой
grep ">" trna_bacsu.fasta > trna.txt
был получен файл "trna.txt", содержащий названия фходных последовательностей.
Данные из файлов "trna.txt", "bbb_1.txt", "bbb_2.txt" и "bbb_3.txt" были импортированы в таблицу "trna.xls".
Анализ результатов
Как можно заметить по таблице, при изменении параметров расчета веса выравнивания и изменении длины слова количество находок растет.
Командой seqret -sask из генома бактерии был вырезан участок, возможно гомологичный последовательности тРНК BSn5_t20966.
Выравнивание, проведенное командой needle
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 79
# Identity: 53/79 (67.1%)
# Similarity: 53/79 (67.1%)
# Gaps: 17/79 (21.5%)
# Score: 179.0
#
#
#=======================================
BSn5_t20966 1 gggcctgtagctcagctggttagagcg-cacgcctgataagcgt-gaggt 48
|.||||||||||||| .|||||| ||| |.||| .||.|| |||||
CP000557 1 ----ccgtagctcagctgg-gagagcgccac-cttga-cagggtggaggt 43
BSn5_t20966 49 cggtggttcgagtccactcaggcccacca 77
||.|||||||||.|||.||.|
CP000557 44 cgctggttcgagcccagtcgg-------- 64
В выравнивании needle есть неточности по краям. Вероятно, такая находка попалась из-за измененных параметров, повысивших чувствительность поиска.
Проверка участка (819743-819806) в EMBL показала, что здесь кодируется tRNA-Val (819739-819811).
|