Работа в BLAST

BLAST

BLAST - это программа, находящаяся на сервере NCBI, которая позволяет находить белковые последовательности в базе данных Swiss-prot, сходные с поданной на вход последовательностью. Используя эту программу, биологи чаще всего хотят найти гомологичные последовательности. BLAST также умеет строить выравнивание двух и более последовательностей относительно друг друга, строить карту локального сходства, дерево выравнивания. BLAST является самой популярной биоинформатической программой, поскольку она проста в использовании и выполняет важные задачи.

Поданная на вход последовательность называется query, а находка из базы данных - subject. Для каждой находки указывается Description - название, Accession - код в базе данных.

Каждая находка имеет свои параметры, которые позволяют оценить её биологическую значимость:

1. Score - вес парного выравнивания исходной последовательности с найденной. Чаще всего используется матрица аминокислотных замен BLOSUM62. Этот параметр разделён на 2 колонки: Max Score - это максимальный вес, Total Score - это общий вес. Обычно Max score и Total Score совпадают. Если они отличаются, то находка выровнялась по нескольким участкам сходства.
2. Bit-score - нормализация посчитанного Score. Чем больше, тем лучше.
3. E-value (Expect) - это значение показывает, насколько случайно полученное выравнивание. Это количество находок с таким же или большим весом при поиске в базе данных случайных последовательностей. Например, если для находки e-value = 10, то это значит, что в базе данных случайных последовательностей найдётся 10 находок с таким же или большим весом. Чем меньше e-value, тем более статистически значима эта находка. i>
4. Query-cover - какой процент длины исходной последовательности выровнялся с находкой.
5. Ident - процент совпавших аминокислот.
6. Positives - процент похожих аминокислот (отмечается + в выравнивании).
7. Gaps - процент гэпов.

Итак, для выполнения задания 1 я запустила BLAST для белка с идентификатором NP_661963.1, с которым я работала ещё в первом семестре. BLAST определил суперсемейство данного белка, положение каталитических остатков в нём, домены (рисунок 1).

Рис.1. Расширенная информация о доменах белка с идентификатором NP_661963.1, полученная при помощи BLAST.

Теперь перейдём к находкам. Лучшие находки показанные на рисунке 2. Как видно, все они имеют отличные значения E-value и хорошее покрытие при выравнивании с исходной последовательностью. Первые 2 найденные последовательности - это тот же самый белок, который мы подали на вход, поэтому лучшей находкой будем считать третью сверху (идентификатор YP_001998644.1).

Рис.2. Лучшие результаты поиска сходных аминокислотных последовательностей. Красный прямоугольник - последовательность для задания 1, зелёный прямоугольник - белок из эукариотного организма (клещевина), будет обсуждаться позже (в задании 3).

Выбранная мной последовательность (идентификатор WP_008444041.1) обведена на рисунке 2 красным прямоугольником. Это белок такого же семейства, как и NP_661963.1, выделенный из почвенной бактерии Janthinobacterium sp. HH01. Стоит отметить, что эта почвенная бактерия таксономически далека от бактерии, из которой был получен белок NP_661963.1. Информация о находке представлена в таблице 1.

Табл.1. Параметры выравнивания находки и исходного белка.

#FFFFF0

Description	Max score	Total score	Query cover	E value	Accession	Identities	Positives	Gaps
thioredoxin family protein [Janthinobacterium sp. HH01] >gb\|ELX12000.1\| thioredoxin family protein [Janthinobacterium sp. HH01]	158 битов (400 вес)	158 битов	83%	1е-45	WP_008444041.1	63%	74%	0%

На рисунке 3 представлено парное выранивание этих двух белков, построенное BLAST. Благодаря этому выравниванию можно оценить, какие именно участки последовательностей сходны. Хорошо, если будет сходство в области каталитических остатков и доменов. Как видно из выравнивания, высоко консервативны позиции 61-82, на этом участке последовательности совпадают. Из рисунка 1 понятно, что аминокислоты, обеспечивающие каталитическую активность (catalytic residues) находятся примерно на 65-70 позициях. Теперь поближе посмотрим на совпавший фрагмент:

DFWASWCGPCRQSFPWMNQMQAKY

Можно предположить, что и в пространстве укладка этих белков одинакова (на данном участке), поскольку совпали редкие и сильно влияющие на фолдинг аминокислоты - триптофан и тирозин. Всё это свидетельствует о сходстве выполняемых белками функций и их гомологии.

Рис.3.Выравнивание белков с идентификаторами NP_661963.1 и WP_008444041.1, построенное BLAST.

Теперь сравним некоторые параметры выбранной находки с лучшей:

Табл.2. Некоторые параметры выбранной находки и лучшей находки.

Description	Max score	Query cover	E value	Identities
thioredoxin family protein [Janthinobacterium sp. HH01] >gb\|ELX12000.1\| thioredoxin family protein [Janthinobacterium sp. HH01]	158 битов (400 вес)	83%	1е-45	63%
alkyl hydroperoxide reductase/ Thiol specific antioxidant/ Mal allergen [Chlorobaculum parvum NCIB 8327]	164 бита (415 вес)	95%	2e-80	72

Выравнивание исходной последовательности с лучшей:

Query  13   LFALVLSVGLSANAHALDKGDKAPDFALPGKTGVVKLSDKTGSVVYLDFWASWCGPCRQS  72
            L A +++ G+S +A A + G++A DF LPGKTGVVKLSD  GSV+YLDFWASWCGPCRQS
Sbjct  12   LIAFIVAFGISVDAKAFEPGEQAADFTLPGKTGVVKLSDMKGSVIYLDFWASWCGPCRQS  71

Query  73   FPWMNQMQAKYKAKGFQVVAVNLDAKTGDAMKFLAQVPAEFTVAFDPKGQTPRLYGVKGM  132
            FPWMN+MQAK+K KGFQV+AVNLDAKT  A KFL+QVPA+FTVAFD KGQTPR+YGVKGM
Sbjct  72   FPWMNRMQAKFKDKGFQVLAVNLDAKTDQATKFLSQVPADFTVAFDSKGQTPRVYGVKGM  131

Query  133  PTSFLIDRNGKVLLQHVGFRPADKEALEQQILAAL  167
            PTSFLIDRNGKVL QH GF  AD + LEQ+I AAL
Sbjct  132  PTSFLIDRNGKVLWQHAGFNSADTQELEQKIQAAL  166

В задании 2 я построила выравнивание двух последовательностей с помощью BLAST. Карта локального сходства представлена на рисунке 4.

Рис.4.Карта локального сходства между исходной и выбранной последовательностями.

Анализируя рисунок 4, можно сделать вывод о том, что начальные участки последовательностей не совпадают, но зато участки с каталитическими остатками и концы белков выровнялись хорошо. На самом деле, начало исходного белка плохо выравнивается со всеми находками BLAST, возможно это связано с ошибками в секвенировании или с тем, что бактерия, из которой выделен query-белок, обитает в довольно экстремальных условиях. Я думаю, что выравнивание, которое построил BLAST достоверное и здесь нет участков, которые сходны, но негомологичны.

В задании 3 я ограничила поиск по базе данных, указав в поле Organism, что нужны только белки из эукариот. Результаты оказались неожиданными: находок было довольно много. Лучшие из них представлены на рисунке 5. Интересно, что лучшая находка среди эукариот - белок клещевины - также была одной из лучших и в обычном поиске (эта же последовательность обведена зелёным прямоугольником на рисунке 1). Такое сходство между белками прокариот и высших эукариот необычно. Если посмотреть на другие находки, то они имеют намного меньший процент сходства и вес, а также больший e-value. Первая находка значительно выделяется по показателям. Также стоит отметить, что другие находки - в подавляющем большинстве белки из простейших или одноклеточных организмов. Всего находок - 133.

Рис.5.Лучшие находки BLAST при поиске только по белкам эукариотных организмов.

Несколько предположений, почему могла появиться такая находка:

1. Мой однокурсник Миша предположил, что препарат клещевины был плохо очищен перед секвенированием, поэтому туда могла попасть чужая ДНК. Эту версию подтверждает то, что почвенные бактерии имеют такой же белок (например, в задании 1 рассматривался белок почвенной бактерии).
2. Я предположила, что здесь могла иметь место ошибка в секвенировании. Этот вывод я сделала после того, как запустила BLAST для белка клещевины и оказалось, что он не имеет значительного сходства с белками из эукариотических организмов. Все лучшие находки были среди бактерий. Более того, BLAST не идентифицировал никаких доменов в этом белке, кроме тиоредоксинового. Этот домен находится на конце, а до него находятся 300 аминокислотных остатков, которые не выравниваются ни с одной из находок.
3. Просто клещевина - очень уникальное растение.

Даже если отбросить возможно ошибочную находку белка клещевины, сходство с эукариотическими белками всё равно довольно значительное. Это может свидетельствовать о консервативности тиоредоксиновой системы, к которой относится исходный белок.

Для выполнения задания 4 я выбрала 10 находок (некоторые из них были лучшими, некоторые - наоборот) и построила множественное выравнивание с помощью COBALT. Скачать множественное выравнивание можно здесь. Общий вид проекта в Jalview представлен на рисунке 6. Открыт участок наилучшего совпадения, видно что есть очень консервативный мотив. Скачать проект Jalview с данным множественным выравниванием можно скачать здесь.

Рис.6.Проект Jalview с построенным множественным выравниванием в раскраске BLOSUM62 (консервативность больше 70%).

Одна из последовательностей, выбранных мной для множественного выравнивания - это эукариотический белок (из задания 3), он намного длиннее остальных белков, поэтому считать процент консервативных позиций будет, на мой взгляд, довольно бессмысленно. И всё же, процент абсолютно консервативных позиций - 6,5%, и эта цифра не показательна.