ФББ 2013-2014

BLAST

BLAST - это программа, находящаяся на сервере NCBI, которая позволяет находить белковые последовательности в базе данных Swiss-prot, сходные с поданной на вход последовательностью. Используя эту программу, биологи чаще всего хотят найти гомологичные последовательности. BLAST также умеет строить выравнивание двух и более последовательностей относительно друг друга, строить карту локального сходства, дерево выравнивания. BLAST является самой популярной биоинформатической программой, поскольку она проста в использовании и выполняет важные задачи.

Поданная на вход последовательность называется query, а находка из базы данных - subject. Для каждой находки указывается Description - название, Accession - код в базе данных.

Каждая находка имеет свои параметры, которые позволяют оценить её биологическую значимость:

Итак, для выполнения задания 1 я запустила BLAST для белка с идентификатором NP_661963.1, с которым я работала ещё в первом семестре. BLAST определил суперсемейство данного белка, положение каталитических остатков в нём, домены (рисунок 1).

Рис.1. Расширенная информация о доменах белка с идентификатором NP_661963.1, полученная при помощи BLAST.

Теперь перейдём к находкам. Лучшие находки показанные на рисунке 2. Как видно, все они имеют отличные значения E-value и хорошее покрытие при выравнивании с исходной последовательностью. Первые 2 найденные последовательности - это тот же самый белок, который мы подали на вход, поэтому лучшей находкой будем считать третью сверху (идентификатор YP_001998644.1).

Рис.2. Лучшие результаты поиска сходных аминокислотных последовательностей. Красный прямоугольник - последовательность для задания 1, зелёный прямоугольник - белок из эукариотного организма (клещевина), будет обсуждаться позже (в задании 3).

Выбранная мной последовательность (идентификатор WP_008444041.1) обведена на рисунке 2 красным прямоугольником. Это белок такого же семейства, как и NP_661963.1, выделенный из почвенной бактерии Janthinobacterium sp. HH01. Стоит отметить, что эта почвенная бактерия таксономически далека от бактерии, из которой был получен белок NP_661963.1. Информация о находке представлена в таблице 1.

Табл.1. Параметры выравнивания находки и исходного белка.

#FFFFF0
Description Max score Total score Query cover E value Accession Identities Positives Gaps
thioredoxin family protein [Janthinobacterium sp. HH01] >gb|ELX12000.1| thioredoxin family protein [Janthinobacterium sp. HH01] 158 битов (400 вес) 158 битов 83% 1е-45 WP_008444041.1 63% 74% 0%

На рисунке 3 представлено парное выранивание этих двух белков, построенное BLAST. Благодаря этому выравниванию можно оценить, какие именно участки последовательностей сходны. Хорошо, если будет сходство в области каталитических остатков и доменов. Как видно из выравнивания, высоко консервативны позиции 61-82, на этом участке последовательности совпадают. Из рисунка 1 понятно, что аминокислоты, обеспечивающие каталитическую активность (catalytic residues) находятся примерно на 65-70 позициях. Теперь поближе посмотрим на совпавший фрагмент:

DFWASWCGPCRQSFPWMNQMQAKY

Можно предположить, что и в пространстве укладка этих белков одинакова (на данном участке), поскольку совпали редкие и сильно влияющие на фолдинг аминокислоты - триптофан и тирозин. Всё это свидетельствует о сходстве выполняемых белками функций и их гомологии.

Рис.3.Выравнивание белков с идентификаторами NP_661963.1 и WP_008444041.1, построенное BLAST.

Теперь сравним некоторые параметры выбранной находки с лучшей:

Табл.2. Некоторые параметры выбранной находки и лучшей находки.

Description Max score Query cover E value Identities
thioredoxin family protein [Janthinobacterium sp. HH01] >gb|ELX12000.1| thioredoxin family protein [Janthinobacterium sp. HH01] 158 битов (400 вес) 83% 1е-45 63%
alkyl hydroperoxide reductase/ Thiol specific antioxidant/ Mal allergen [Chlorobaculum parvum NCIB 8327] 164 бита (415 вес) 95% 2e-80 72

Выравнивание исходной последовательности с лучшей:

Query  13   LFALVLSVGLSANAHALDKGDKAPDFALPGKTGVVKLSDKTGSVVYLDFWASWCGPCRQS  72
            L A +++ G+S +A A + G++A DF LPGKTGVVKLSD  GSV+YLDFWASWCGPCRQS
Sbjct  12   LIAFIVAFGISVDAKAFEPGEQAADFTLPGKTGVVKLSDMKGSVIYLDFWASWCGPCRQS  71

Query  73   FPWMNQMQAKYKAKGFQVVAVNLDAKTGDAMKFLAQVPAEFTVAFDPKGQTPRLYGVKGM  132
            FPWMN+MQAK+K KGFQV+AVNLDAKT  A KFL+QVPA+FTVAFD KGQTPR+YGVKGM
Sbjct  72   FPWMNRMQAKFKDKGFQVLAVNLDAKTDQATKFLSQVPADFTVAFDSKGQTPRVYGVKGM  131

Query  133  PTSFLIDRNGKVLLQHVGFRPADKEALEQQILAAL  167
            PTSFLIDRNGKVL QH GF  AD + LEQ+I AAL
Sbjct  132  PTSFLIDRNGKVLWQHAGFNSADTQELEQKIQAAL  166

В задании 2 я построила выравнивание двух последовательностей с помощью BLAST. Карта локального сходства представлена на рисунке 4.

Рис.4.Карта локального сходства между исходной и выбранной последовательностями.

Анализируя рисунок 4, можно сделать вывод о том, что начальные участки последовательностей не совпадают, но зато участки с каталитическими остатками и концы белков выровнялись хорошо. На самом деле, начало исходного белка плохо выравнивается со всеми находками BLAST, возможно это связано с ошибками в секвенировании или с тем, что бактерия, из которой выделен query-белок, обитает в довольно экстремальных условиях. Я думаю, что выравнивание, которое построил BLAST достоверное и здесь нет участков, которые сходны, но негомологичны.

В задании 3 я ограничила поиск по базе данных, указав в поле Organism, что нужны только белки из эукариот. Результаты оказались неожиданными: находок было довольно много. Лучшие из них представлены на рисунке 5. Интересно, что лучшая находка среди эукариот - белок клещевины - также была одной из лучших и в обычном поиске (эта же последовательность обведена зелёным прямоугольником на рисунке 1). Такое сходство между белками прокариот и высших эукариот необычно. Если посмотреть на другие находки, то они имеют намного меньший процент сходства и вес, а также больший e-value. Первая находка значительно выделяется по показателям. Также стоит отметить, что другие находки - в подавляющем большинстве белки из простейших или одноклеточных организмов. Всего находок - 133.

Рис.5.Лучшие находки BLAST при поиске только по белкам эукариотных организмов.

Несколько предположений, почему могла появиться такая находка:

Даже если отбросить возможно ошибочную находку белка клещевины, сходство с эукариотическими белками всё равно довольно значительное. Это может свидетельствовать о консервативности тиоредоксиновой системы, к которой относится исходный белок.

Для выполнения задания 4 я выбрала 10 находок (некоторые из них были лучшими, некоторые - наоборот) и построила множественное выравнивание с помощью COBALT. Скачать множественное выравнивание можно здесь. Общий вид проекта в Jalview представлен на рисунке 6. Открыт участок наилучшего совпадения, видно что есть очень консервативный мотив. Скачать проект Jalview с данным множественным выравниванием можно скачать здесь.

Рис.6.Проект Jalview с построенным множественным выравниванием в раскраске BLOSUM62 (консервативность больше 70%).

Одна из последовательностей, выбранных мной для множественного выравнивания - это эукариотический белок (из задания 3), он намного длиннее остальных белков, поэтому считать процент консервативных позиций будет, на мой взгляд, довольно бессмысленно. И всё же, процент абсолютно консервативных позиций - 6,5%, и эта цифра не показательна.