Задание 1.Поиск в геноме участков, кодирующих белки, похожие на заданный
В задании требовалось определить, закодированы ли в геноме бактерии Streptococcus agalactiae белки, похожие на белок PDXK_BACSU. Для этого использовался пакет Blast+. Была создана локальная база данных на основе полного генома бактерии(sa_genome.fasta). Поиск был поизведен с помощью программы tblastn:
blastn -query pdxk_bacsu.fasta -db sa_genome.fasta -out blast.out -evalue 0.01
Поиск гомологов белка PDXK_BACSU в геноме бактерии Streptococcus agalactiae
Число находок с E-value < 0,001 | 2 |
E-value лучшей находки | 8e-39 |
Название последовательности с лучшей находкой | AL766843 |
Координаты лучшей находки (от-до) | 110867 - 111526 |
Доля последовательности белка, вошедшая в выравнивание с лучшей находкой | 0.84 |
Задание 2. Поиск гомологов некодирующих последовательностей программой BLASTN
В задании требовалось определить, сколько гомологов каждой из тРНК генома Bacillus subtilis BSn5 (файл trna_bacsu.fasta) находит программа BLASTN в геноме treptococcus agalactiae. Использовалась база данных sa_genome, полученная в предыдущем задании. Использованная команда:
blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out blast0.out -evalue 0.01 -outfmt 7
Для того, чтобы найти, сколько находок было для каждой тРНК, использовалась команда grep. Для создания скрипта из команд использовался Excel(а именно - функция "СЦЕПИТЬ" в нем). Скрипт. Результат выполнения задания - в файлеtrna.xls
Задание 3. Поиск гомологов при изменённых параметрах программы BLASTN
Предыдущее задание было повторено с измененными параметрами: измененной весовой матрицей (-reward 5, -penalty -4, -gapopen 25 и -gapextend 10) и длиной слова (по умолчанию, максимальной и минимальной). Число, в котором записан параметр word_size, являтся int 8, поэтому максимальная длина слова - 2147483647
Использованные команды:
time blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out blast1.out -evalue 0.01 -outfmt 7 -reward 5 -penalty -4 -gapopen 25 -gapextend 10 time blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out blast2.out -evalue 0.01 -outfmt 7 -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4 time blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out blast3.out -evalue 0.01 -outfmt 7 -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 2147483647
Результат - таблица с названиями тРНК и числом находок каждой выдачи blast в файле trna.xls
Файлы с выдачами blast: blast1.out, blast2.out, blast3.out.
Задание 4. Анализ результатов
При изменении веса чило находок незначительно увеличилось. При минимальной длине слова число находок увеличивается, а при максимальной - равно 0.
В файле blast2.out с выдачей blastn при минимальном word_size была выбрана пара BSn5_t20966 - AL766845, которой нет в других файлах. С помощью команды seqret был вырезан гомологичный участок из AL766845, и последовательности были выравнены с помощью программой needle. Характеристики самого лучшего выравнивания приведены ниже:
# Identity: 33/91 (36.3%) # Similarity: 33/91 (36.3%) # Gaps: 49/91 (53.8%) # Score: 29.5 # # #======================================= BSn5_t20966 1 gggcctgta-gctca--gctgg-----ttagagcgcacgcctga----ta 38 .|| || || ||||| |||..||.| || || AL766845 1 ------ttatgc-cattgctggacctattattgctc------gaaaatta 37 BSn5_t20966 39 agcgtgaggt--cggtggttcgagtccactcaggcccacca 77 | |.|| |..||.||| .|| AL766845 38 a-----atgttcctttgcttc--atc--------------- 56
Надо сказать, что оно не очень хорошее. То, что его нет в других файлах выдачи при других параметрах, связано с тем, что такая маленькая длина слова делает выравнивание менее строгим.
В записи EMBL взятый участок (в выдаче blastn его координаты 100544-100599, а в записи EMBL - 100537-100610) проаннотирован, это аргининовая тРНК. Однако тРНК из Bacillus subtilis BSn5_t20966 является изолейциновой.
Задание 5. Время работы программы BLAST
В таблице указаны параметры, при которых была запущена программа, и время её работы. Для всех запусков одинаковыми были параметры: -task blastn, -query trna_bacsu.fasta, -db sa_genome.fasta, -out blast1.out, -evalue 0.01, -outfmt 7.
По умолчанию | 0m0.465s |
-reward 5 -penalty -4 -gapopen 25 -gapextend 10 |
0m0.643s |
-reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4 |
0m0.650s |
-reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 2147483647 |
0m0.475s |
Самое быстрое время - при параметрах по умолчанию. При минимальной длине слова и измененной весовой матрице время самое большое, возможно, потому что программа находит болье хитов. При максимальной длине слова время близко к времени работы программы с параметрами по умолчанию.