Лого сайта
Standalone blastn

Поиск в геноме участков, кодирующих белки, похожие на заданный

Заданным белком является белок CLPQ_BACSU, его аминокислотная последовательность представлена в Таблице 1. Поиск осуществляется программой tblastn по полному геному бактерии Geobacillus thermodenitrificans. Скрипт, с помощью которого получены данные представлен в Таблице 2. Результат поиска программы blastn представлен в Таблице 3.

CLPQ_BACSU.fasta

Получено командой:
seqret sw:P39070 CLPQ_BACSU.fasta

Таблица 1.Последовательность белка CLPQ_BACSU в fasta-формате.



Получение данных

1. makeblastndb -in gt_genome.fasta -dbtype nucl
2. tblastn -query CLPQ_BACSU.fasta -db gt_genome.fasta -evalue 1e-3 -out Task1.txt -outfmt "7 qseqid sseqid evalue sstart send qcovs "

Таблица 2. Процесс получения данных.



Число находок с E-value < 0,001 1
E-value лучшей находки 4e-92
Название последовательности с лучшей находкой CP000557
Координаты лучшей находки (от-до) 1133761-1134300
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой 99%

Таблица 3. Поиск гомологов белка CLPQ_BACSU в геноме бактерии Geobacillus thermodenitrificans.

Поиск гомологов некодирующих последовательностей программой blastn

Для поиска гомологов всех тРНК, проаннотированных в полном геноме Bacillus subtilis BSn5, в полном геноме Geobacillus thermodenitrificans была запущена последовательность команд из Таблицы 4.

Поиск гомологов тРНК в геноме


time blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 1e-2 -outfmt "6 qseqid" -out task_2_1.txt;uniq -c task_2_1.txt > task_2_1_out.txt

time blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 1e-2 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt "6 qseqid" -out task_2_2.txt;uniq -c task_2_2.txt > task_2_2_out.txt

time blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 1e-2 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -outfmt "6 qseqid" -out task_2_3.txt;uniq -c task_2_3.txt > task_2_3_out.txt



time blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 1e-2 -word_size 4 -outfmt "6 qseqid" -out task_2_4.txt;uniq -c task_2_4.txt > task_2_4_out.txt

Таблица 4.Последовательность команд для получения данных о поиске гомологов тРНК Bacillus subtilis BSn5, в полном геноме Geobacillus thermodenitrificans.



Names default -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -word_size 4
BSn5_t20892 tRNA-Asn 2 2 11 2
BSn5_t20894 tRNA-Gln 4 5 5 4
BSn5_t20896 tRNA-Phe 1 1 5 2
BSn5_t20898 tRNA-Gln 5 5 5 5
BSn5_t20900 tRNA-Ile 2 2 5 6
BSn5_t20902 tRNA-Ala 4 5 28 7
BSn5_t20904 tRNA-Ser 10 19 36 14
BSn5_t20906 tRNA-Ile 3 4 9 8
BSn5_t20908 tRNA-Ala 5 4 10 5
BSn5_t20910 tRNA-Met 6 8 30 10
BSn5_t20912 tRNA-Glu 14 18 35 18
BSn5_t20914 tRNA-Asn 8 5 14 11
BSn5_t20916 tRNA-Thr 3 5 5 5
BSn5_t20918 tRNA-Gly 9 9 31 18
BSn5_t20920 tRNA-Arg 12 16 30 15
BSn5_t20922 tRNA-Pro 17 18 29 19
BSn5_t20924 tRNA-Ala 8 5 14 11
BSn5_t20926 tRNA-Glu 3 5 5 5
BSn5_t20928 tRNA-Val 9 9 31 18
BSn5_t20930 tRNA-Thr 9 20 30 9
BSn5_t20932 tRNA-Tyr 11 13 27 14
BSn5_t20934 tRNA-Gln 6 20 44 18
BSn5_t20936 tRNA-Asn 4 6 18 5
BSn5_t20938 tRNA-Ser 3 4 5 4
BSn5_t20940 tRNA-Glu 5 9 25 12
BSn5_t20942 tRNA-Gln 7 7 7 7
BSn5_t20944 tRNA-Lys 16 16 35 26
BSn5_t20946 tRNA-Leu 7 14 34 16
BSn5_t20948 tRNA-Arg 16 18 43 19
BSn5_t20950 tRNA-Gly 12 13 28 15
BSn5_t20952 tRNA-Met 10 19 40 19
BSn5_t20954 tRNA-Asp 16 13 25 16
BSn5_t20956 tRNA-Ser 10 6 8 10
BSn5_t20958 tRNA-Glu 15 16 27 21
BSn5_t20960 tRNA-Val 14 18 35 18
BSn5_t20962 tRNA-Met 5 5 5 5
BSn5_t20964 tRNA-Asp 16 16 35 26
BSn5_t20966 tRNA-Ile 10 19 40 19
BSn5_t20968 tRNA-Ala 12 13 28 15
BSn5_t20970 tRNA-Ser 3 3 5 5
BSn5_t20972 tRNA-Ile 10 19 40 19
BSn5_t20974 tRNA-Ala 12 13 28 15
BSn5_t20976 tRNA-Met 9 20 30 9
BSn5_t20978 tRNA-Glu 5 5 5 5
BSn5_t20980 tRNA-Asn 6 6 28 9
BSn5_t20982 tRNA-Thr 3 5 22 11
BSn5_t20984 tRNA-Gly 5 9 25 12
BSn5_t20986 tRNA-Arg 4 6 18 5
BSn5_t20988 tRNA-Pro 6 20 44 18
BSn5_t20990 tRNA-Ala 12 13 28 15
BSn5_t20992 tRNA-Glu 5 5 5 5
BSn5_t20994 tRNA-Val 15 15 39 28
BSn5_t20996 tRNA-Thr 6 8 29 10
BSn5_t20998 tRNA-Tyr 2 2 2 2
BSn5_t21000 tRNA-Gln 4 7 9 6
BSn5_t21002 tRNA-Asn 4 4 22 7
BSn5_t21004 tRNA-Ser 2 2 5 5
BSn5_t21006 tRNA-Glu 5 5 5 5
BSn5_t21008 tRNA-Gln 4 7 10 6
BSn5_t21010 tRNA-Lys 16 16 35 26
BSn5_t21012 tRNA-Leu 7 7 7 7
BSn5_t21014 tRNA-Arg 4 6 20 5
BSn5_t21016 tRNA-Gly 3 3 8 7
BSn5_t21018 tRNA-Met 8 6 14 11
BSn5_t21020 tRNA-Asp 14 18 35 18
BSn5_t21022 tRNA-Asn 6 6 28 9
BSn5_t21024 tRNA-Ser 1 3 5 1
BSn5_t21026 tRNA-Glu 5 5 5 5
BSn5_t21028 tRNA-Val 16 18 43 19
BSn5_t21030 tRNA-Met 8 5 14 11
BSn5_t21032 tRNA-Asp 14 18 35 18
BSn5_t21034 tRNA-Phe 15 16 31 20
BSn5_t21036 tRNA-Thr 7 14 30 16
BSn5_t21038 tRNA-Tyr 2 2 3 2
BSn5_t21040 tRNA-Trp 1 4 5 1
BSn5_t21042 tRNA-His 5 4 8 5
BSn5_t21044 tRNA-Gln 4 7 10 6
BSn5_t21046 tRNA-Gly 5 9 25 12
BSn5_t21048 tRNA-Cys 2 2 6 3
BSn5_t21050 tRNA-Leu 4 4 5 5
BSn5_t21052 tRNA-Leu 5 5 7 5
BSn5_t21054 tRNA-Gly 3 3 8 7
BSn5_t21056 tRNA-Val 14 14 24 20

Таблица 5. Данные о количестве гомологов тРНК Bacillus subtilis BSn5, в полном геноме Geobacillus thermodenitrificans.

Анализ результатов

Как видно из Таблицы 5, вцелом, количество найденных предположительно гомологичных последовательностей с переходом от стандартных настроек к настройкам с -reward 5 -penalty -4 -gapopen 10 -gapextend 6 и ещё и -word_size 4 довольно сильно увеличивается.

Это объяснимо тем, что при измененных параметрах поиск становится очень чувствительным, что позволяет находить гомологию более далеких последовательностей. Пример сравнения выравниванием последовательности найденной при -word_size 4 и не найденной при других представлено в Таблице 7.

Однако повышение чувствительности приводит к сильному увеличению времени исполнения программы, что представлено в Таблице 8.

Процесс получения данных для Таблицы 7 представлен в Таблице 6.


seqret fasta::trna_bacsu.fasta:BSn5_t20966 fasta::task_4_1_trna.fasta

seqret fasta::gt_genome.fasta[155340:155393] fasta::task_4_2_golomogy.fasta

needle task_4_1_trna.fasta task_4_2_golomogy.fasta -out task_4_out.txt

Таблица 6. Процесс получения данных для Таблицы 7.



task_4_out.txt

Таблица 7. Данные о выравнивании последовательности тРНК тРНК Bacillus subtilis BSn5и, возможно, гомологоичной ей из генома Geobacillus thermodenitrificans.

Как видно из Таблицы 7, выравнивание не плохое, хотя и есть неточности по краям. Это говорит о далекости сравниваемых последовательностей или, не исключено, что blastn с очень чувствительными настройками оказался не селективным. По данным записи embl:CP000557 участок 155333..155407 (почти совпадающий с найденным blastn'ом участком 155340..155393) генома Geobacillus thermodenitrificans содержит ген, продуктом которого является tRNA-Asn.

Время работы blastn

Время работы в зависимости от настроек алгоритма поиска отличается. Полученные данные представлены в Таблице 8.
отличия от стандартных настроек поиска время
нет 0m0.512s
-reward 5 -penalty -4 -gapopen 10 -gapextend 6 0m0.607s
-reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 0m40.539s
-word_size 4 0m30.585s

Таблица 8. Данные о затраченном на работу blastn времени в зависимости от настроек поиска.

Как видно из Таблицы 8, переопределение весов не сильно сказывается на вычислительном времени, однако изменение длины слова очень усложняет работу алгоритма blastn, что приводит к большим затратам времени, в данном случае аж на 2 порядка.