BLAST
Задание 1
Найдите сходные последовательности в базе данных Refseq_protein.
Поиск BLAST по запросу YP_001041787.1. Число находок 8313. Вследствие количества находок не получилось дождаться дерева ... :( Среди находок последовательности из геномов Rhodobacter(aproteobacteria).Однако есть представители из групп firmicutes, even-toed ungulates и mites & ticks.Были выбраны три находки:
1) Первая(лучшая) - MULTISPECIES: 2-dehydro-3-deoxyphosphooctonate aldolase [Rhodobacter] (WP_002724637.1)
2) Последняя из выбранных - 2-dehydro-3-deoxyphosphooctonate aldolase [Burkholderia thailandensis] (WP_009904111.1)
3) Первая после последней выбранной - cytochrome C4 [Bacteroides intestinalis] (WP_044532545.1)
Для выбора последовательностей минимальный E-value был установлен 0.01
Таблица для трех находок
Имя | Длина выравнивания | Bit score | Ident | Positives | E-value | Alignment |
2-dehydro-3-deoxyphosphooctonate aldolase [Rhodobacter] | 278 | 568 | 100% | 100% | 0,0 | Выравнивание 1 |
2-dehydro-3-deoxyphosphooctonate aldolase [Burkholderia thailandensis] | 267 | 245 | 47% | 62% | 2е-76 | Выравнивание 2 |
cytochrome C4 [Bacteroides intestinalis] | 262 | 46,6 | 26% | 42% | 0,01 | Выравнивание 3 |
Не удалось установить порог Query cover 70% (нет такой опции среди запросов поиска и диалога Formatting options), поэтому были выбраны все гомологи с E-value < 1e-3, и далее был сделан sort by Query cover.
Задание 2
Найдите сходные последовательности среди белков из какой-нибудь таксономической группы.
Была взята таксономическа категория Runella.
Для исходного поиска Blast:
cytochrome C4 [Runella zeae] Max score Total score Query cover E value Ident Accession 50.8 50.8 96% 4e-04 25% WP_028664200.1Для поиска только в категории Runella:
cytochrome C4 [Runella zeae] Max score Total score Query cover E value Ident Accession 50.8 50.8 96% 2e-07 25% WP_028664200.1E-value поменялся, поскольку он масштабируется по размеру базы.
Задание 3
Для одной из найденных последовательностей сохраните карту локального сходства.
Исходная последовательность YP_001041787.1 была выровнена с последовательностью WP_028664200.1 в режиме парного выравнивания BLAST.

Dot matrix view
У взятой последовательности E-value очень мал (взятая последовательность является хорошей находкой) и поэтому карта локального сходства показывает высокю степень гомологичности данных белков.
Score Expect Method Identities Positives Gaps 50.8 bits(120) 9e-12 Compositional matrix adjust. 68/276(25%) 115/276(41%) 26/276(9%)Выравнивания, полученные обоими методами (из задания 2 и 3), полностью совпадают.
Задание 4
Используйте BLAST для поиска в своей базе данных.
В моей директории pr11 была создана база my_database.fasta, в которой находятся файлы seq1.fasta, seq2.fasta, my.fasta, friend.fasta, а также все результаты запроса "venom mollusc" в NCBI Protein search.
Вот наилучший хит, который был выдан:
> gi|302348981|ref|YP_003816619.1| Elongation factor 1-alpha [Acidilobus saccharovorans 345-15] Length=436 Score = 16.9 bits (32), Expect = 3.2, Method: Compositional matrix adjust. Identities = 5/13 (38%), Positives = 10/13 (77%), Gaps = 0/13 (0%) Query 26 GPCQLESLDHARM 38 GP +E+LD+ ++ Sbjct 212 GPTLVEALDNLKV 224Данные белки не гомологичны. Очень большой E-value = 3.2 и малая длина хита не позволяют предположить о какой-либо связи между этими белками.