Третий семестр

Задание 1.Поиск в геноме участков, кодирующих белки, похожие на заданный



В задании требовалось определить, закодированы ли в геноме бактерии Streptococcus agalactiae белки, похожие на белок PDXK_BACSU. Для этого использовался пакет Blast+. Была создана локальная база данных на основе полного генома бактерии(sa_genome.fasta). Поиск был поизведен с помощью программы tblastn:

blastn -query pdxk_bacsu.fasta -db sa_genome.fasta -out blast.out -evalue 0.01

Поиск гомологов белка PDXK_BACSU в геноме бактерии Streptococcus agalactiae

Число находок с E-value < 0,001 2
E-value лучшей находки 8e-39
Название последовательности с лучшей находкой AL766843
Координаты лучшей находки (от-до) 110867 - 111526
Доля последовательности белка, вошедшая в выравнивание с лучшей находкой 0.84

Задание 2. Поиск гомологов некодирующих последовательностей программой BLASTN



В задании требовалось определить, сколько гомологов каждой из тРНК генома Bacillus subtilis BSn5 (файл trna_bacsu.fasta) находит программа BLASTN в геноме treptococcus agalactiae. Использовалась база данных sa_genome, полученная в предыдущем задании. Использованная команда:

blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out blast0.out -evalue 0.01 -outfmt 7

Для того, чтобы найти, сколько находок было для каждой тРНК, использовалась команда grep. Для создания скрипта из команд использовался Excel(а именно - функция "СЦЕПИТЬ" в нем). Скрипт. Результат выполнения задания - в файлеtrna.xls

Задание 3. Поиск гомологов при изменённых параметрах программы BLASTN


Предыдущее задание было повторено с измененными параметрами: измененной весовой матрицей (-reward 5, -penalty -4, -gapopen 25 и -gapextend 10) и длиной слова (по умолчанию, максимальной и минимальной). Число, в котором записан параметр word_size, являтся int 8, поэтому максимальная длина слова - 2147483647

Использованные команды:

time blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out blast1.out -evalue 0.01 -outfmt 7
 -reward 5 -penalty -4 -gapopen 25 -gapextend 10

time blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out blast2.out -evalue 0.01 -outfmt 7
 -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4

time blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out blast3.out -evalue 0.01 -outfmt 7
 -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 2147483647

Результат - таблица с названиями тРНК и числом находок каждой выдачи blast в файле trna.xls

Файлы с выдачами blast: blast1.out, blast2.out, blast3.out.

Задание 4. Анализ результатов


При изменении веса чило находок незначительно увеличилось. При минимальной длине слова число находок увеличивается, а при максимальной - равно 0.

В файле blast2.out с выдачей blastn при минимальном word_size была выбрана пара BSn5_t20966 - AL766845, которой нет в других файлах. С помощью команды seqret был вырезан гомологичный участок из AL766845, и последовательности были выравнены с помощью программой needle. Характеристики самого лучшего выравнивания приведены ниже:

# Identity:      33/91 (36.3%)
# Similarity:    33/91 (36.3%)
# Gaps:          49/91 (53.8%)
# Score: 29.5
#
#
#=======================================

BSn5_t20966        1 gggcctgta-gctca--gctgg-----ttagagcgcacgcctga----ta     38
                           .|| || ||  |||||     |||..||.|      ||    ||
AL766845           1 ------ttatgc-cattgctggacctattattgctc------gaaaatta     37

BSn5_t20966       39 agcgtgaggt--cggtggttcgagtccactcaggcccacca     77
                     |     |.||  |..||.|||  .||
AL766845          38 a-----atgttcctttgcttc--atc---------------     56

Надо сказать, что оно не очень хорошее. То, что его нет в других файлах выдачи при других параметрах, связано с тем, что такая маленькая длина слова делает выравнивание менее строгим.

В записи EMBL взятый участок (в выдаче blastn его координаты 100544-100599, а в записи EMBL - 100537-100610) проаннотирован, это аргининовая тРНК. Однако тРНК из Bacillus subtilis BSn5_t20966 является изолейциновой.


Задание 5. Время работы программы BLAST


В таблице указаны параметры, при которых была запущена программа, и время её работы. Для всех запусков одинаковыми были параметры: -task blastn, -query trna_bacsu.fasta, -db sa_genome.fasta, -out blast1.out, -evalue 0.01, -outfmt 7.

По умолчанию 0m0.465s
-reward 5
-penalty -4
-gapopen 25
-gapextend 10
0m0.643s
-reward 5
-penalty -4
-gapopen 25
-gapextend 10
-word_size 4
0m0.650s
-reward 5
-penalty -4
-gapopen 25
-gapextend 10
-word_size 2147483647
0m0.475s

Самое быстрое время - при параметрах по умолчанию. При минимальной длине слова и измененной весовой матрице время самое большое, возможно, потому что программа находит болье хитов. При максимальной длине слова время близко к времени работы программы с параметрами по умолчанию.