Главная | Семестры | Проекты | Обo мне | Ссылки | Заметки | Назад к оглавлению |
Standalone BLAST
1. Поиск в геноме участков, кодирующих белки, похожие на заданный
Определим, закодированы ли похожие на белок PDAA из Bacillus subtilis белки в геноме Streptococcus agalactiae организма, не пользуясь аннотацией генома. Для этого выберем подходящую для решения данной задачи программу из пакета BLAST+ и запустим ее локально (standalone). Наиболее подходящей является программа tblastn, так как она осуществляет поиск гомологов нуклеотидной последовательности в нуклеотидной базе данных.
Создадим для начала локальную базу данных на основе полного генома бактерии Streptococcus agalactiae (sa_genome.fasta):
makeblastdb -in sa_genome.fasta -dbtype nucl
И получим файл(pdaa_bacsu.fasta) с аминокислотной последовательностью моего белка (PDAA_BACSU):
seqret sw:pdaa_bacsu
Далее осуществим поиск гомологов:
tblastn -query pdaa_bacsu.fasta -db sa_genome.fasta -evalue 0.001 -out tblast.out
Поиск гомологов белка PDAA в геноме Streptococcus agalactiae | |
Число находок с E-value < 0,001 | 2 |
E-value лучшей находки | 2e-31 |
Название последовательности с лучшей находкой (embl) | AL766847 |
Координаты лучшей находки (от-до) | 83757-84350 |
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей | 112/205=0.55 |
2. Поиск гомологов некодирующих последовательностей программой BLASTN
Определим, сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии (Streptococcus agalactiae).Для этого запустим команду 1:
blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out 1blastn.out -evalue 0.01 -outfmt 6
С помощью grep и Excel узнаем сколько находок было для каждой тРНК, получаем файл trna.xls (см. comand1). Использованный скрипт (как писать тут).
3. Поиск гомологов при изменённых параметрах программы BLASTN
Повторим предыдущее задание при измененных параметрах.
Сначала изменим весовую матрицу (-reward и -penalty), теперь будет -reward 5 и -penalty -4. А так же поменяем -gapopen и -gapextend на 25 и 10 (можно было так же 10 и 6, 8 и 6), команда 2:
blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out 2blast.out -evalue 0.01 -outfmt 6 -reward 5 -penalty -4 -gapopen 25 -gapextend 10
Получили файл 2blast.out.
Изменим еще и word_size на минимально возможное, т.е. на 4, команда 3:
blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out 3blast.out -evalue 0.01 -outfmt 6 -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4
Получили файл 3blast.out.
Итоговый файл с названиями тРНК и числом находок, полученных от каждой команды (1-3) - здесь
4. Анализ результатов
При изменении весов подчета количество находок незначительно увеличивается. А при изменении длины слова на минимальное очень значительно увеличивается (что очень логично).
В одном из полученных при выполнении заданий 2 и 3 выходных файлов BLASTN выбрала пару: tRNA B.subtilis - BSn5_t20966 и гомологичный участок, найденный в геноме другой бактерии.
Получила что ее координаты 100237-100182 (=> с - цепи). Далее вырезала этот фрагмент из Streptococcus agalactiae. И выровним эту последовательность с последовательностями тРНК Bacillus subtilis программой needle:
needle 1.fasta trna_bacsu.fasta Needleman-Wunsch global alignment of two sequences Gap opening penalty [10.0]: Gap extension penalty [0.5]: Output alignment [al766856.needle]:
.Получим:
# Aligned_sequences: 2 # 1: AL766856 # 2: BSn5_t20966 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 78 # Identity: 46/78 (59.0%) # Similarity: 46/78 (59.0%) # Gaps: 23/78 (29.5%) # Score: 174.0 # # #======================================= AL766856 1 -------tagctcagttgg-tagtagcgcatgactgttaatcatgatgtc 42 ||||||||.||| ||| ||||||.|.|||.|||.|.|||.||| BSn5_t20966 1 gggcctgtagctcagctggttag-agcgcacgcctgataagcgtgaggtc 49 AL766856 43 gcaggttcgagtcc-------------- 56 |..||||||||||| BSn5_t20966 50 ggtggttcgagtccactcaggcccacca 77
Как видно из выравнивания фрагмент генома Streptococcus agalactiae не очень хорошо выравнивается с BSn5_t20966 - треониновой тРНК B.subtilis, хотя с этой тРНК лучше, чем со всеми остальными. Следовательно, можно сделать вывод, что поиск гомологов с минимальной длиной слова не очень хорош, т.к. он может запросто найти просто похожие последовательности, но они врятли будут гомологами.
BSn5_t20966 em|AL766856 78.57 56 12 0 8 63 100237 100182 6e-08 50.05*. Время работы программы BLAST
- команда 1 (стандартные параметры): 0m0.629s
- команда 2 (стандартные + -reward 5 и -penalty -4): 0m0.694s
- команда 3 (+ еще -word_size 4): 0m21.228s
Заметим, что при прибавлении команд время работы увеличивается, но это и логично, тк программа постепенно прибавляет новые параметры, тем самым увеличивая время своей работы. Время команды 3 особенно отличается от времени ожидания результата от других команд, скорее всего это связано с тем, что длина 4 очень маленькая и результатов (хитов) много.