BLAST

BLAST

Задание 1

Найдите сходные последовательности в базе данных Refseq_protein.

Запрос_1

Поиск BLAST по запросу YP_001041787.1. Число находок 8313. Вследствие количества находок не получилось дождаться дерева ... :( Среди находок последовательности из геномов Rhodobacter(aproteobacteria).Однако есть представители из групп firmicutes, even-toed ungulates и mites & ticks.
Были выбраны три находки:

1) Первая(лучшая) - MULTISPECIES: 2-dehydro-3-deoxyphosphooctonate aldolase [Rhodobacter] (WP_002724637.1)

2) Последняя из выбранных - 2-dehydro-3-deoxyphosphooctonate aldolase [Burkholderia thailandensis] (WP_009904111.1)

3) Первая после последней выбранной - cytochrome C4 [Bacteroides intestinalis] (WP_044532545.1)

Для выбора последовательностей минимальный E-value был установлен 0.01

Таблица для трех находок

Имя Длина выравнивания Bit score Ident Positives E-value Alignment
2-dehydro-3-deoxyphosphooctonate aldolase [Rhodobacter] 278 568 100% 100% 0,0 Выравнивание 1
2-dehydro-3-deoxyphosphooctonate aldolase [Burkholderia thailandensis] 267 245 47% 62% 2е-76 Выравнивание 2
cytochrome C4 [Bacteroides intestinalis] 262 46,6 26% 42% 0,01 Выравнивание 3

Для подсчета гомологов исходной последовательности был использован такой условный критерий — найден гомолог всей исходной последовательности, если E-value < 1e-3 и не менее 70% запроса вошло в полученное выравнивание (Query cover).
Не удалось установить порог Query cover 70% (нет такой опции среди запросов поиска и диалога Formatting options), поэтому были выбраны все гомологи с E-value < 1e-3, и далее был сделан sort by Query cover.

Запрос_2

Задание 2

Найдите сходные последовательности среди белков из какой-нибудь таксономической группы.
Была взята таксономическа категория Runella. Для исходного поиска Blast:

cytochrome C4 [Runella zeae]
Max score   Total score   Query cover   E value   Ident   Accession
50.8           50.8            96%       4e-04     25%   WP_028664200.1
Для поиска только в категории Runella:
cytochrome C4 [Runella zeae]
Max score   Total score   Query cover   E value   Ident   Accession
50.8            50.8           96%        2e-07    25%   WP_028664200.1
E-value поменялся, поскольку он масштабируется по размеру базы.

Задание 3

Для одной из найденных последовательностей сохраните карту локального сходства.

Исходная последовательность YP_001041787.1 была выровнена с последовательностью WP_028664200.1 в режиме парного выравнивания BLAST.

картинка загружается...

Dot matrix view

У взятой последовательности E-value очень мал (взятая последовательность является хорошей находкой) и поэтому карта локального сходства показывает высокю степень гомологичности данных белков.

Запрос_3

Score            Expect          Method                 Identities     Positives      Gaps
50.8 bits(120)    9e-12   Compositional matrix adjust.  68/276(25%)   115/276(41%)  26/276(9%)
Выравнивания, полученные обоими методами (из задания 2 и 3), полностью совпадают.

Выравнивание 4

Задание 4

Используйте BLAST для поиска в своей базе данных.

В моей директории pr11 была создана база my_database.fasta, в которой находятся файлы seq1.fasta, seq2.fasta, my.fasta, friend.fasta, а также все результаты запроса "venom mollusc" в NCBI Protein search.

Вот наилучший хит, который был выдан:

> gi|302348981|ref|YP_003816619.1| Elongation factor 1-alpha [Acidilobus saccharovorans 345-15]
Length=436

Score = 16.9 bits (32),  Expect = 3.2, Method: Compositional matrix adjust.
Identities = 5/13 (38%), Positives = 10/13 (77%), Gaps = 0/13 (0%)

Query  26   GPCQLESLDHARM  38
            GP  +E+LD+ ++
Sbjct  212  GPTLVEALDNLKV  224

Данные белки не гомологичны. Очень большой E-value = 3.2 и малая длина хита не позволяют предположить о какой-либо связи между этими белками.