ФББ 2013-2014
BLAST
BLAST - это программа, находящаяся на сервере NCBI, которая позволяет находить белковые последовательности в базе данных Swiss-prot, сходные с поданной на вход последовательностью. Используя эту программу, биологи чаще всего хотят найти гомологичные последовательности. BLAST также умеет строить выравнивание двух и более последовательностей относительно друг друга, строить карту локального сходства, дерево выравнивания. BLAST является самой популярной биоинформатической программой, поскольку она проста в использовании и выполняет важные задачи.
Поданная на вход последовательность называется query, а находка из базы данных - subject. Для каждой находки указывается Description - название, Accession - код в базе данных.
Каждая находка имеет свои параметры, которые позволяют оценить её биологическую значимость:
Итак, для выполнения задания 1 я запустила BLAST для белка с идентификатором NP_661963.1, с которым я работала ещё в первом семестре. BLAST определил суперсемейство данного белка, положение каталитических остатков в нём, домены (рисунок 1).
Рис.1. Расширенная информация о доменах белка с идентификатором NP_661963.1, полученная при помощи BLAST.
Теперь перейдём к находкам. Лучшие находки показанные на рисунке 2. Как видно, все они имеют отличные значения E-value и хорошее покрытие при выравнивании с исходной последовательностью. Первые 2 найденные последовательности - это тот же самый белок, который мы подали на вход, поэтому лучшей находкой будем считать третью сверху (идентификатор YP_001998644.1).
Рис.2. Лучшие результаты поиска сходных аминокислотных последовательностей. Красный прямоугольник - последовательность для задания 1, зелёный прямоугольник - белок из эукариотного организма (клещевина), будет обсуждаться позже (в задании 3).
Выбранная мной последовательность (идентификатор WP_008444041.1) обведена на рисунке 2 красным прямоугольником. Это белок такого же семейства, как и NP_661963.1, выделенный из почвенной бактерии Janthinobacterium sp. HH01. Стоит отметить, что эта почвенная бактерия таксономически далека от бактерии, из которой был получен белок NP_661963.1. Информация о находке представлена в таблице 1.
Табл.1. Параметры выравнивания находки и исходного белка.
Description | Max score | Total score | Query cover | E value | Accession | Identities | Positives | Gaps |
thioredoxin family protein [Janthinobacterium sp. HH01] >gb|ELX12000.1| thioredoxin family protein [Janthinobacterium sp. HH01] | 158 битов (400 вес) | 158 битов | 83% | 1е-45 | WP_008444041.1 | 63% | 74% | 0% |
На рисунке 3 представлено парное выранивание этих двух белков, построенное BLAST. Благодаря этому выравниванию можно оценить, какие именно участки последовательностей сходны. Хорошо, если будет сходство в области каталитических остатков и доменов. Как видно из выравнивания, высоко консервативны позиции 61-82, на этом участке последовательности совпадают. Из рисунка 1 понятно, что аминокислоты, обеспечивающие каталитическую активность (catalytic residues) находятся примерно на 65-70 позициях. Теперь поближе посмотрим на совпавший фрагмент:
DFWASWCGPCRQSFPWMNQMQAKY
Можно предположить, что и в пространстве укладка этих белков одинакова (на данном участке), поскольку совпали редкие и сильно влияющие на фолдинг аминокислоты - триптофан и тирозин. Всё это свидетельствует о сходстве выполняемых белками функций и их гомологии.
Рис.3.Выравнивание белков с идентификаторами NP_661963.1 и WP_008444041.1, построенное BLAST.
Теперь сравним некоторые параметры выбранной находки с лучшей:
Табл.2. Некоторые параметры выбранной находки и лучшей находки.
Description | Max score | Query cover | E value | Identities |
thioredoxin family protein [Janthinobacterium sp. HH01] >gb|ELX12000.1| thioredoxin family protein [Janthinobacterium sp. HH01] | 158 битов (400 вес) | 83% | 1е-45 | 63% |
alkyl hydroperoxide reductase/ Thiol specific antioxidant/ Mal allergen [Chlorobaculum parvum NCIB 8327] | 164 бита (415 вес) | 95% | 2e-80 | 72 |
Выравнивание исходной последовательности с лучшей:
Query 13 LFALVLSVGLSANAHALDKGDKAPDFALPGKTGVVKLSDKTGSVVYLDFWASWCGPCRQS 72 L A +++ G+S +A A + G++A DF LPGKTGVVKLSD GSV+YLDFWASWCGPCRQS Sbjct 12 LIAFIVAFGISVDAKAFEPGEQAADFTLPGKTGVVKLSDMKGSVIYLDFWASWCGPCRQS 71 Query 73 FPWMNQMQAKYKAKGFQVVAVNLDAKTGDAMKFLAQVPAEFTVAFDPKGQTPRLYGVKGM 132 FPWMN+MQAK+K KGFQV+AVNLDAKT A KFL+QVPA+FTVAFD KGQTPR+YGVKGM Sbjct 72 FPWMNRMQAKFKDKGFQVLAVNLDAKTDQATKFLSQVPADFTVAFDSKGQTPRVYGVKGM 131 Query 133 PTSFLIDRNGKVLLQHVGFRPADKEALEQQILAAL 167 PTSFLIDRNGKVL QH GF AD + LEQ+I AAL Sbjct 132 PTSFLIDRNGKVLWQHAGFNSADTQELEQKIQAAL 166
В задании 2 я построила выравнивание двух последовательностей с помощью BLAST. Карта локального сходства представлена на рисунке 4.
Рис.4.Карта локального сходства между исходной и выбранной последовательностями.
Анализируя рисунок 4, можно сделать вывод о том, что начальные участки последовательностей не совпадают, но зато участки с каталитическими остатками и концы белков выровнялись хорошо. На самом деле, начало исходного белка плохо выравнивается со всеми находками BLAST, возможно это связано с ошибками в секвенировании или с тем, что бактерия, из которой выделен query-белок, обитает в довольно экстремальных условиях. Я думаю, что выравнивание, которое построил BLAST достоверное и здесь нет участков, которые сходны, но негомологичны.
В задании 3 я ограничила поиск по базе данных, указав в поле Organism, что нужны только белки из эукариот. Результаты оказались неожиданными: находок было довольно много. Лучшие из них представлены на рисунке 5. Интересно, что лучшая находка среди эукариот - белок клещевины - также была одной из лучших и в обычном поиске (эта же последовательность обведена зелёным прямоугольником на рисунке 1). Такое сходство между белками прокариот и высших эукариот необычно. Если посмотреть на другие находки, то они имеют намного меньший процент сходства и вес, а также больший e-value. Первая находка значительно выделяется по показателям. Также стоит отметить, что другие находки - в подавляющем большинстве белки из простейших или одноклеточных организмов. Всего находок - 133.
Рис.5.Лучшие находки BLAST при поиске только по белкам эукариотных организмов.
Несколько предположений, почему могла появиться такая находка:
Даже если отбросить возможно ошибочную находку белка клещевины, сходство с эукариотическими белками всё равно довольно значительное. Это может свидетельствовать о консервативности тиоредоксиновой системы, к которой относится исходный белок.
Для выполнения задания 4 я выбрала 10 находок (некоторые из них были лучшими, некоторые - наоборот) и построила множественное выравнивание с помощью COBALT. Скачать множественное выравнивание можно здесь. Общий вид проекта в Jalview представлен на рисунке 6. Открыт участок наилучшего совпадения, видно что есть очень консервативный мотив. Скачать проект Jalview с данным множественным выравниванием можно скачать здесь.
Рис.6.Проект Jalview с построенным множественным выравниванием в раскраске BLOSUM62 (консервативность больше 70%).
Одна из последовательностей, выбранных мной для множественного выравнивания - это эукариотический белок (из задания 3), он намного длиннее остальных белков, поэтому считать процент консервативных позиций будет, на мой взгляд, довольно бессмысленно. И всё же, процент абсолютно консервативных позиций - 6,5%, и эта цифра не показательна.