Поиск в геноме участков, кодирующих белки, похожие на заданный
Заданным белком является белок CLPQ_BACSU, его аминокислотная последовательность представлена в Таблице 1.
Поиск осуществляется программой tblastn по полному геному бактерии Geobacillus thermodenitrificans.
Скрипт, с помощью которого получены данные представлен в Таблице 2. Результат поиска программы blastn представлен в Таблице 3.
CLPQ_BACSU.fasta Получено командой:
Таблица 1.Последовательность белка CLPQ_BACSU в fasta-формате. Получение данных 1. makeblastndb -in gt_genome.fasta -dbtype nucl
Таблица 2. Процесс получения данных. Таблица 3. Поиск гомологов белка CLPQ_BACSU в геноме бактерии Geobacillus thermodenitrificans.
seqret sw:P39070 CLPQ_BACSU.fasta
2. tblastn -query CLPQ_BACSU.fasta -db gt_genome.fasta -evalue 1e-3 -out Task1.txt -outfmt "7 qseqid sseqid evalue sstart send qcovs "
Число находок с E-value < 0,001
1
E-value лучшей находки
4e-92
Название последовательности с лучшей находкой
CP000557
Координаты лучшей находки (от-до)
1133761-1134300
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой
99%
Поиск гомологов некодирующих последовательностей программой blastn
Для поиска гомологов всех тРНК, проаннотированных в полном геноме Bacillus subtilis BSn5, в полном геноме Geobacillus thermodenitrificans была запущена последовательность команд из Таблицы 4.Поиск гомологов тРНК в геноме
time blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 1e-2 -outfmt "6 qseqid" -out task_2_1.txt;uniq -c task_2_1.txt > task_2_1_out.txt
time blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 1e-2 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt "6 qseqid" -out task_2_2.txt;uniq -c task_2_2.txt > task_2_2_out.txt
time blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 1e-2 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -outfmt "6 qseqid" -out task_2_3.txt;uniq -c task_2_3.txt > task_2_3_out.txt
time blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 1e-2 -word_size 4 -outfmt "6 qseqid" -out task_2_4.txt;uniq -c task_2_4.txt > task_2_4_out.txt
Таблица 4.Последовательность команд для получения данных о поиске гомологов тРНК Bacillus subtilis BSn5, в полном геноме Geobacillus thermodenitrificans.
Names | default | -reward 5 -penalty -4 -gapopen 10 -gapextend 6 | -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 | -word_size 4 | |
BSn5_t20892 | tRNA-Asn | 2 | 2 | 11 | 2 |
BSn5_t20894 | tRNA-Gln | 4 | 5 | 5 | 4 |
BSn5_t20896 | tRNA-Phe | 1 | 1 | 5 | 2 |
BSn5_t20898 | tRNA-Gln | 5 | 5 | 5 | 5 |
BSn5_t20900 | tRNA-Ile | 2 | 2 | 5 | 6 |
BSn5_t20902 | tRNA-Ala | 4 | 5 | 28 | 7 |
BSn5_t20904 | tRNA-Ser | 10 | 19 | 36 | 14 |
BSn5_t20906 | tRNA-Ile | 3 | 4 | 9 | 8 |
BSn5_t20908 | tRNA-Ala | 5 | 4 | 10 | 5 |
BSn5_t20910 | tRNA-Met | 6 | 8 | 30 | 10 |
BSn5_t20912 | tRNA-Glu | 14 | 18 | 35 | 18 |
BSn5_t20914 | tRNA-Asn | 8 | 5 | 14 | 11 |
BSn5_t20916 | tRNA-Thr | 3 | 5 | 5 | 5 |
BSn5_t20918 | tRNA-Gly | 9 | 9 | 31 | 18 |
BSn5_t20920 | tRNA-Arg | 12 | 16 | 30 | 15 |
BSn5_t20922 | tRNA-Pro | 17 | 18 | 29 | 19 |
BSn5_t20924 | tRNA-Ala | 8 | 5 | 14 | 11 |
BSn5_t20926 | tRNA-Glu | 3 | 5 | 5 | 5 |
BSn5_t20928 | tRNA-Val | 9 | 9 | 31 | 18 |
BSn5_t20930 | tRNA-Thr | 9 | 20 | 30 | 9 |
BSn5_t20932 | tRNA-Tyr | 11 | 13 | 27 | 14 |
BSn5_t20934 | tRNA-Gln | 6 | 20 | 44 | 18 |
BSn5_t20936 | tRNA-Asn | 4 | 6 | 18 | 5 |
BSn5_t20938 | tRNA-Ser | 3 | 4 | 5 | 4 |
BSn5_t20940 | tRNA-Glu | 5 | 9 | 25 | 12 |
BSn5_t20942 | tRNA-Gln | 7 | 7 | 7 | 7 |
BSn5_t20944 | tRNA-Lys | 16 | 16 | 35 | 26 |
BSn5_t20946 | tRNA-Leu | 7 | 14 | 34 | 16 |
BSn5_t20948 | tRNA-Arg | 16 | 18 | 43 | 19 |
BSn5_t20950 | tRNA-Gly | 12 | 13 | 28 | 15 |
BSn5_t20952 | tRNA-Met | 10 | 19 | 40 | 19 |
BSn5_t20954 | tRNA-Asp | 16 | 13 | 25 | 16 |
BSn5_t20956 | tRNA-Ser | 10 | 6 | 8 | 10 |
BSn5_t20958 | tRNA-Glu | 15 | 16 | 27 | 21 |
BSn5_t20960 | tRNA-Val | 14 | 18 | 35 | 18 |
BSn5_t20962 | tRNA-Met | 5 | 5 | 5 | 5 |
BSn5_t20964 | tRNA-Asp | 16 | 16 | 35 | 26 |
BSn5_t20966 | tRNA-Ile | 10 | 19 | 40 | 19 |
BSn5_t20968 | tRNA-Ala | 12 | 13 | 28 | 15 |
BSn5_t20970 | tRNA-Ser | 3 | 3 | 5 | 5 |
BSn5_t20972 | tRNA-Ile | 10 | 19 | 40 | 19 |
BSn5_t20974 | tRNA-Ala | 12 | 13 | 28 | 15 |
BSn5_t20976 | tRNA-Met | 9 | 20 | 30 | 9 |
BSn5_t20978 | tRNA-Glu | 5 | 5 | 5 | 5 |
BSn5_t20980 | tRNA-Asn | 6 | 6 | 28 | 9 |
BSn5_t20982 | tRNA-Thr | 3 | 5 | 22 | 11 |
BSn5_t20984 | tRNA-Gly | 5 | 9 | 25 | 12 |
BSn5_t20986 | tRNA-Arg | 4 | 6 | 18 | 5 |
BSn5_t20988 | tRNA-Pro | 6 | 20 | 44 | 18 |
BSn5_t20990 | tRNA-Ala | 12 | 13 | 28 | 15 |
BSn5_t20992 | tRNA-Glu | 5 | 5 | 5 | 5 |
BSn5_t20994 | tRNA-Val | 15 | 15 | 39 | 28 |
BSn5_t20996 | tRNA-Thr | 6 | 8 | 29 | 10 |
BSn5_t20998 | tRNA-Tyr | 2 | 2 | 2 | 2 |
BSn5_t21000 | tRNA-Gln | 4 | 7 | 9 | 6 |
BSn5_t21002 | tRNA-Asn | 4 | 4 | 22 | 7 |
BSn5_t21004 | tRNA-Ser | 2 | 2 | 5 | 5 |
BSn5_t21006 | tRNA-Glu | 5 | 5 | 5 | 5 |
BSn5_t21008 | tRNA-Gln | 4 | 7 | 10 | 6 |
BSn5_t21010 | tRNA-Lys | 16 | 16 | 35 | 26 |
BSn5_t21012 | tRNA-Leu | 7 | 7 | 7 | 7 |
BSn5_t21014 | tRNA-Arg | 4 | 6 | 20 | 5 |
BSn5_t21016 | tRNA-Gly | 3 | 3 | 8 | 7 |
BSn5_t21018 | tRNA-Met | 8 | 6 | 14 | 11 |
BSn5_t21020 | tRNA-Asp | 14 | 18 | 35 | 18 |
BSn5_t21022 | tRNA-Asn | 6 | 6 | 28 | 9 |
BSn5_t21024 | tRNA-Ser | 1 | 3 | 5 | 1 |
BSn5_t21026 | tRNA-Glu | 5 | 5 | 5 | 5 |
BSn5_t21028 | tRNA-Val | 16 | 18 | 43 | 19 |
BSn5_t21030 | tRNA-Met | 8 | 5 | 14 | 11 |
BSn5_t21032 | tRNA-Asp | 14 | 18 | 35 | 18 |
BSn5_t21034 | tRNA-Phe | 15 | 16 | 31 | 20 |
BSn5_t21036 | tRNA-Thr | 7 | 14 | 30 | 16 |
BSn5_t21038 | tRNA-Tyr | 2 | 2 | 3 | 2 |
BSn5_t21040 | tRNA-Trp | 1 | 4 | 5 | 1 |
BSn5_t21042 | tRNA-His | 5 | 4 | 8 | 5 |
BSn5_t21044 | tRNA-Gln | 4 | 7 | 10 | 6 |
BSn5_t21046 | tRNA-Gly | 5 | 9 | 25 | 12 |
BSn5_t21048 | tRNA-Cys | 2 | 2 | 6 | 3 |
BSn5_t21050 | tRNA-Leu | 4 | 4 | 5 | 5 |
BSn5_t21052 | tRNA-Leu | 5 | 5 | 7 | 5 |
BSn5_t21054 | tRNA-Gly | 3 | 3 | 8 | 7 |
BSn5_t21056 | tRNA-Val | 14 | 14 | 24 | 20 |
Таблица 5. Данные о количестве гомологов тРНК Bacillus subtilis BSn5, в полном геноме Geobacillus thermodenitrificans.
Анализ результатов
Как видно из Таблицы 5, вцелом, количество найденных предположительно гомологичных последовательностей с переходом от стандартных настроек к настройкам с -reward 5 -penalty -4 -gapopen 10 -gapextend 6 и ещё и -word_size 4 довольно сильно увеличивается.
Это объяснимо тем, что при измененных параметрах поиск становится очень чувствительным, что позволяет находить гомологию более далеких последовательностей. Пример сравнения выравниванием последовательности найденной при -word_size 4 и не найденной при других представлено в Таблице 7.
Однако повышение чувствительности приводит к сильному увеличению времени исполнения программы, что представлено в Таблице 8.
Процесс получения данных для Таблицы 7 представлен в Таблице 6.
Таблица 6. Процесс получения данных для Таблицы 7.
seqret fasta::trna_bacsu.fasta:BSn5_t20966 fasta::task_4_1_trna.fasta
seqret fasta::gt_genome.fasta[155340:155393] fasta::task_4_2_golomogy.fasta
needle task_4_1_trna.fasta task_4_2_golomogy.fasta -out task_4_out.txt
task_4_out.txt
Таблица 7. Данные о выравнивании последовательности тРНК тРНК Bacillus subtilis BSn5и, возможно, гомологоичной ей из генома Geobacillus thermodenitrificans.
Как видно из Таблицы 7, выравнивание не плохое, хотя и есть неточности по краям. Это говорит о далекости сравниваемых последовательностей или, не исключено, что blastn с очень чувствительными настройками оказался не селективным. По данным записи embl:CP000557 участок 155333..155407 (почти совпадающий с найденным blastn'ом участком 155340..155393) генома Geobacillus thermodenitrificans содержит ген, продуктом которого является tRNA-Asn.
Время работы blastn
Время работы в зависимости от настроек алгоритма поиска отличается. Полученные данные представлены в Таблице 8.отличия от стандартных настроек поиска | время |
нет | 0m0.512s |
-reward 5 -penalty -4 -gapopen 10 -gapextend 6 | 0m0.607s |
-reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 | 0m40.539s |
-word_size 4 | 0m30.585s |
Таблица 8. Данные о затраченном на работу blastn времени в зависимости от настроек поиска.
Как видно из Таблицы 8, переопределение весов не сильно сказывается на вычислительном времени, однако изменение длины слова очень усложняет работу алгоритма blastn, что приводит к большим затратам времени, в данном случае аж на 2 порядка.