Белок, выбранный мною в седьмом практикуме — это бифункциональный энзим каталаза-пероксидаза, принадлежащий галофильной археи Haloprofundus sp. MHR1. Последовательность содержится в автоматической базе данных TrEMBL, поэтому её идентификатор нельзя так просто отыскать в поиске BLAST. Я загрузил последовательность в BLAST из fasta-файла. В окне выбора данных я поставил Swiss-Prot. Алгоритм, осуществляющий поиск гомологов: blastp. Я изменил длину слова с пяти (значение по молчанию) до трёх для нахождения менее родственных находок. Максимальный размер выдачи оставил равным 100. В результате работы программы было найдено 100 белков с E-Value равным машинному нулю. Я выбрал семь белков с наибольшим процентом идентичности. Ферментом с самым большим процентом идентичности (75,75%) стала каталаза-пероксидаза другой галофильной археи
Natronomonas pharaonis.
Далее я построил множественное выравнивание с помощью средств Jalview (Mafft). Как видно из результатов, в выравнивании содержится очень много консервативных участков (например, участки 89-206, 474-510 и т.д.), что неудивительно, так как, помимо минимального E-Value, все белки имеют очень высокий процент идентичности (минимальный — 64,14%). Большинство из этих белков принадлежат галофильным археям и бактериям, что сводит к минимуму риск того, что последовательности совпадают случайно и доказывает гомологичность белков.
В качестве полипротеина я выбрал белок Genome polyprotein, принадлежащий вирусу бороздчатости стеблей яблони (Apple stem grooving virus). Это один из самых распространённых фитопатогенов, который вредит сельскому хозяйству во всём мире (ID: POLG_ASGVP, AC: P36309, организм: Apple stem grooving virus (strain P-209) (ASGV) ). Полипротеин содержал две зрелые цепи. Я выбрал белок Coat protein, расположенный в позиции 1869..2105. Я осуществил поиск в BLAST, выбрав банк Swiss-Prot и длину слова 3. Порог на E-Value оставил равным 0,05. Алгоритм выдал всего 3 последовательности. Я решил повторить поиск, снизив длину слово до минимально возможной. Поиск на этот раз дал пять последовательностей: первая из них совпадала с искомой на 100%, вторая имела процент идентичности равный 94,94% (E-Value: 7e-155), дальше процент идентичности резко падал: остальные три последовательности имели гораздо меньшую идентичность (порядка 28-36%). E-Value всех последовательностей был достаточно высок: минимальное значение — 2e-15. Все найденные белки принадлежат фитопатогенным вирусам, заражающим покрытосеменные растения. Самый близкий к искомому белок принадлежит вирусу черной некротической пятнистости листьев груши (Pear black necrotic leaf spot virus). Построив множественное неравенство, я увидел, что наибольшее сходство между собою имеют белки вируса яблони и вируса груши, что неудивительно, принимая во внимания большой процент идентичности. Их последовательности совпадают друг с другом почти полностью, а отличающиеся аминокислоты совпадают функционально (например, в 30 колонки первый белок имеет лейцин, а второй — изолейцин). Тем не менее, все белки, скорее всего, являются гомологичными (достаточный процент идентичности, больше 25%, много консервативных позиций + все они принадлежат фитопатогенным вирусам плодовых культур.) Наиболее ярко выраженные консервативные блоки и колонки: 36, 62-68, 70-72, 98, 128, 147-163, 170, 185-199, 209-210, 213, 216-227.
После добавления таксона в настройки поиска было представлено по-прежнему 16 результатов. Судя по всему, близкие последовательности к данной встречаются только у вирусов. И действительно, данный белок, судя по найденным мною данным, является элементом капсида. Однако несмотря на то, что количество результатов не поменялось, снизилось значение их E-Value. Так, например, белок, принадлежащий вирусу черной некротической пятнистости листьев груши, изменил значение с 5e-119 до 2e-120, а белок вируса хлоротичной пятнистости листьев яблони (Apple chlorotic leaf spot virus) снизил E-Value с 3е-23 до 1е-24. Так происходит потому, что E-Value зависит от размера базы данных. Чем меньше база данных, тем ниже вероятность ошибиться в том, что есть ещё находки с таким же или лучшим весом. Значение E-Value уменьшилось приблизительно в 0,04. По другому примеру, уменьшилось в 0, 33 раза. Получается, что вирусы составляют порядка 3-4% от базы данных Swiss-Prot. Однако надо понимать, что это значение не является точным, так как E-Value зависит не только от размера базы данных. Зайдя в UniProt, проверим нашу догадку. Всего аннотированных последовательностей 571282, из которых вирусов лишь 17390, что составляет порядка 3%. Значит, наши выводы верны.
Я решил сравнить между собой интерфейсы BLAST в NCBI и в UniProt. На мой взгляд, интерфейс UniProt отличается более простой и интуитивной структурой, поля ввода и выбора данных расположены на видном месте. Тем не менее, интерфейс UniProt лишает пользователя возможности выбора некоторых функций, например, возможности выбора длины слова. Невозможно установить значение E-Value, кроме представленных в списке (список весьма ограничен, хотя подходит для большинства исследований). Поиск также идёт значительно дольше, по сравнению с NCBI. Интерфейс BLAST явно выигрывает по части баз данных, доступных для использования, ведь он даёт возможность сравнивать не только аннотированные последовательности, но и последовательности из TrEMBL и даже последовательности из UniParc, не вошедшие в UniProtKB. Выдача результатов достаточно схожая. BLAST отмечает, какие последовательности, схожие с проверяемым белком, являются аннотированными, а какими нет. Можно отметить только последовательности, принадлежащие определённым таксонам, или последовательности с определенной степенью аннотированности. Исходя из этого, можно сказать, что интерфейс BLAST удобнее использовать в тех ситуациях, когда нужно найти гомологи белков, отсутствующих в аннотированной базе данных, что избавит от необходимости загружать fasta-файл последовательности и давать его алгоритму на вход. Вместо этого можно просто указать идентификатор. Однако NCBI предоставляет возможность более гибкой настройки параметров поиска, так что при серьёзных исследованиях (в частности тех, где нужна высокая точность результатов), я бы рекомендовал использовать его.
В качестве бессмысленных последовательностей я взял восклицание Гамлета о «бедном Йорике» из пьесы У. Шекспира, кодекс ситхов из «Звёздных войн» и гимн Австралии.
С помощью скрипта на Python, я удалил из последовательностей все пробелы и знаки препинания, а также буквы, не кодирующие аминокислоты. Результат работы программы я вставил в BLAST, установив порог на E-Value равный 10. Поиск выполнен в Swiss-Prot.
Пьеса Шекспира: поиск дал только один результат — fibronectin type III domain-containing protein, принадлежащий спирохете [Spirochaetales bacterium]. E-Value результата составляет 5,8, что является высоким значением и свидетельствует о низкой значимости выравнивания. Тем не менее, процент идентичности белка 26.23%, что может потенциально свидетельствовать о гомологии. Поэтому я решил посмотреть на выравнивание в Jalview. «Шекспировская» последовательность имеет большое число протяжённых инделей. Выравнивание содержит очень мало консервативных участков. Консервативные участки короткие: максимум совпадающих идущих подряд букв равен трём.
Кодекс ситхов: Вторая последовательность дала уже более интересные результаты. Находок оказалось две: это Mucolipin-1 домовой мыши (Mus musculus) и Potassium-transporting ATPase ATP-binding subunit микобактерии Mycobacterium tuberculosis. E-Value находок соответственно составил 6,2 и 7,7. Это высокие значения, так что о достоверности результатов говорить не приходится. К тому же, абсолютно очевидно, что совершенно разные по функции белки организмов из разных царств не могут быть гомологичными. Однако процент идентичности обоих белков весьма высок: более 52%. Необходимо построить выравнивание в Jalview. По нему можно увидеть, что одинаковые аминокислоты расположены в разных местах и консервативных участков очень мало. Из этого можно заключить, что все три белка не могут быть гомологичны друг другу.
Гимн Австралии:
У «австралийской» последовательности нашлось сразу четыре возможных гомолога. E-Value последовательностей колеблется от 5 до 9,2. Процент идентичности от 28.71% до 36.67%. Смотрим на принадлежность белков. Два последних белка принадлежат разным видам Rickettsia и выполняют неизвестную функцию. Первый принадлежит зигомецетовому грибу Mortierella alpina, а второй глубоководной бактерии Photobacterium profundum и выполняют разные функции. Гомологичность подобных последовательностей между собой невозможна. Построив выравнивания, отмечаем, что консервативных участков немного и они очень короткие. Тем не менее, последовательности 3 и 4 очень схожи друг с другом и можно предположить их гомологичность, что неудивительно, ведь они принадлежат одному роду.
Из этого можно сделать вывод, что E-Value действительно является хорошим показателем для оценки достоверности результата. Очень высокие значения E-Value отражают, что выравнивание не имеет эволюционной значимости. В то же время, процент идентичности, напротив, является очень слабым показателем. Наличие одинаковых аминокислот в протеоме далеко не всегда свидетельствует о гомологии. Последовательности с высоким процентом идентичности обязательно надо выравнивать в программе, чтобы удостовериться в том, что у них действительно есть ярко выраженные консервативные участки.