BLAST



Для выполнения 11 практикума я использовала аминокислотную последовательность белка Pyrimidine operon attenuation protein/uracil phosphoribosyltransferase организма Gordonibacter pamelaeae 7-10-1-b. Сама аминокислотная последовательность достепна в fasta-файле.

Задание 1

В этом задании требовалось найти гомологов моего белка, т е последовательности, схожые с моей, используя программу BLAST и программу RefSeq. А для того, чтобы "поле деятельности" увеличилось и выбор гомологов расширился, я внесла изменения а параметры алгоритма:
Я изменила количество выводимых на экран находок: Max target sequences - 20000.
Ознакомиться с параметрами поиска можно здесь.

Общее число находок — 316.

Перейдя по ссылке Formatting options, я начала перечислять различные группы орагизмов в поле Organisms. Вышло, что из 316 находок 46 принадлежал организмам архей.

В таблице 1 сравнивается информация о лучшей находке (была выбрана вторая с начала списка, так как первая непосредственно является последовательностью искомого белка): Uracil phosphoribosyltransferase [Deinococcus deserti VCD115], о находке из середины списка: Uracil phosphoribosyltransferase [Pseudomonas savastanoi pv. phaseolicola 1448A] и о худшей (последней) находке: Adenine phosphoribosyltransferase [Bacteroides fragilis YCH46].

Находка Название белка Организм Длина выравнивания Bit score Процент идентичных колонок, % Процент сходных колонок, % E_value
Лучшая Uracil phosphoribosyltransferase Deinococcus deserti VCD115 183 527 59 76 3e-66
Из середины списка Uracil phosphoribosyltransferase Pseudomonas savastanoi pv. phaseolicola 1448A 170 264 41 62 5e-27
Худшая Adenine phosphoribosyltransferase Bacteroides fragilis YCH46 178 66 27 50 9.7


Ниже на рисунках 2-4 приведены выравнивания, которые были простноены в программе Blast.

Выравнивание лучшей находки
Рис.2 Выравнивание лучшей находки

Выравнивание находки из середины списка
Рис.3 Выравнивание находки из середины списка

Выравнивание худшей находки
Рис.4 Выравнивание худшей находки

Для нахождения гомологов мы следим за тем, чтобы E-value был < 1e-3 и не менее 70% запроса вошло в полученное выравнивание (Query cover). Таким образом гомологами исходной последовательности можно считать 130находок. (Рис. 5).


Рис.5 Графическое представление результатов поиска.




Задание 2

Чтобы выбрать одну последовательность, я сравнила полученный список с и исходным и убедилась в том, что выбранная мной последовательность попала в оба. Я выбрала последовательность белка PyrR организма Pelotomaculum thermopropionicum SI c ID: sp|A5D172.1|PYRR_PELTS. Говорить, что это одна и та же последовательность, позволяют одинаковая длина - 181 и одинаковый Sequence ID: sp|A5D172.1|PYRR_PELTS. Выравнивание не изменилось, однако есть различия в E-value (6e-70 и 7е-69) из-за разного числа последовательностей, с которыми сравнивали исхлдную (чем больше вариантов, тем более случайна находка и тем больше E-value). (Условия поиска).





Задание 3

Для последовательности белка Bifunctional protein pyrR организма Enterococcus faecalis V583 была получена локальная карта сходства с исходной.

Локальная карта сходства последовательностей
Рис. 6 Локальная карта сходства последовательностей.

Особенности полученного выравнивания:

  • Кажется, что последовательности совпадают на всем протяжении, но на самом деле это не так (Query cover 87%).
  • Интнресно, что выравнивание содержит много консервативных и сходных позиций и не содержит гэпов. (в местах, где есть гэпы, должны быть разрывы)
  • E-value находки - 2е-70

  • Выравнивание последовательностей
    Выравнивание последовательности белка Bifunctional protein pyrR организма Enterococcus faecalis V583 и исходной последовательности.



    Задание 4

    Для выполнения данного задания я создала свою базу данных, полученную из выравнивания последовательностей из файла align_04.fasta, предварительно удалив все гэпы (файл my.fasta).
    Затем я совершила поиск последовательностей, схожих с моим белком (файл p.fasta) в полученной базе данных.
    Всего программа признала значимыми 3 находки: DESRM (2 находки), BUTPB, ACEAZ.
    Для лучшей находки (DESRM/1-78) в таблице перечислены основные характеристики: длина выравнивания, % идентичных и сходных остатков, bit score и E-value.
    Выравнивание Длина выравнивания Bit score Процент идентичных колонок, % Процент сходных колонок, % E_value
    DESRM (1 находка) 6 14.6 57 85 0.35
    DESRM (2 находка) 12 14.6 38 53 0.35

    Из приведённых данных видно, что данные находки не гомологичны данному, т к значение e-value слишком велико, даже несмотря на малый размер банка.

    СПАСИБО ЗА ПРОСМОТР


    © Мария Медведева