Учебный сайт Левина Ильи, 2-й семестр

Программа BLAST

1. Ищем гомологи для белка BACR_HALSA в Swiss-Prot

Поиск будет выполняться через программу BLAST.

Привожу параметры поиска:

В качестве запроса я подал BLAST'у последовательность в fasta-формате. Выбрал в Swiss-Prot в качестве банка, в котором будет проводиться поиск. Все остальные параметры оставил по умолчанию.

В разделе Algorithm parameters я указал, чтобы в выходе BLAST оказалось только 10 первых находок, так как мне больше и не требуется. Также я выбрал длину слова, равную 3-м, для более точного поиска гомологов. Также я активировал параметр Compositional adjustments для того, чтобы сделать поиск ещё точнее и отсеять выравнивания, содержащие участки с сильно смещённым составом.

Здесь вы можете найти результаты поиска BLAST. Из этих 10 находок я отобрал первые 7 (кроме самого исследуемого белка) по проценту индентичности и составил с ними и запросом множественное выравнивание.

Информация о множественном выравнивании 7 белков-гомологов с BACR_HALSA
Рекомендованное имя белка Выбранные AC (Swiss-Prot) Идентичность E-value Проект JalView
Bacteriorhodopsin P02945 100% 0 bacr_8_align.jvp
Archaerhodopsin-3 P96787 61.4% 3e-89
Archaerhodopsin-1 P69051 60.6% 2e-87
Bacteriorhodopsin-I G0LFX8 55.9% 5e-73
Archaerhodopsin-2 P29563 55.5% 2e-79
Cruxrhodopsin-3 P94854 54.4% 3e-65
Bacteriorhodopsin O93740 54.4% 6e-61
Bacteriorhodopsin-II Q5V0R5 54.1% 1e-66

В выравнивании огромное количество высокоиндентичных участков (например, столбцы 85-117 и 227-254) и высококонсервативных участков (например, столбцы 97-110 и 237-243). Также, я заметил около 3-х участков достаточно больших вставок (столбцы 9-19, 150-155 и 265-270), но схожих участков гораздо и гораздо больше, они сильно преобладают над выделенными мною вставками.

Вышеприведённая информация даёт нам возможность смело сказать, что все 8 белков гомологичны.

7 гомологов найдено!

2. Ищем гомологи для 3C-like proteinase из полипротеина 1аb вируса MERS в Swiss-Prot

Этот белок я уже нашёл и выделил в виде fasta-файла в практикуме 9, задание 2. Содержимое этого файла я подам BLAST'у под теми же параметрами, что и предыдущем задании.

Здесь ссылка на файл результата поиска.

Информация о множественном выравнивании 8-ми белков-гомологов с белком 3CL_PRO
Рекомендованное имя запроса Координаты в полипротеине Выбранные AC (Swiss-Prot) Идентичность E-value Проект JalView
3C-like proteinase 3248 - 3553 P0C6X7 100% 0.0 3cl_pro_9_align.jvp
P0C6T5 82.7% 9e-179
P0C6W4 82.7% 2e-178
P0C6T4 81.1% 3e-175
P0C6W3 81.1% 4e-175
P0C6F7 80.7% 6e-175
P0C6W1 80.7% 1e-174
P0C6Y0 54.6% 2e-106
P0C6X4 54.3% 2e-106

Само выравнивание перед анализом я обрезал по концам последовательности-запроса, сократил с длины 7000+ а. о. до 306.

В самом выравнивании я удалил две последовательности (K9N638 и K9N7C7), которые были полностью идентичны зрелому белку 3CL_PRO. Также, в самом выравнивании я удалил ещё три последовательности (P0C6F7, P0C6W1 и P0C6W3) из четырёх, которые между собой также полностью идентичны, за исключением одного столбца (160), в котором Leu менялся на Ile, т. е. 2 очень похожие аминокислоты сменили друг друга. Оставил я ту последовательность, у которой в 160 столбце находится изолейцин (P0C6T4) потому, что в запросе в 160-м столбце находится изолейцин. Ещё я удалил одну из 2-х идентичных последовательностей (P0C6T5 и P0C6W4).

Итог такой: в выравнивании осталось всего 5 последовательностей, включая запрос.

Ну и, судя по этому выравниванию, мы можем смело сказать, что все 5 (11) белков гомологичны. Во-первых, огромное количество консервативных участков (столбцы 1-6, 25-33). Во-вторых, большое количество высоко идентичных участков (столбцы 138-153, 204-219, например). В-третьих, оооочень маленькие значения e-value.

3. Исследование зависимости E-value от объёма банка

Далее я повторил поиск, какой был в предыдущем задании, только поставил фильтр по организмам - Viruses.

Здесь ссылка на результат поиска.

Заметим, что все значения e-value у всех находок (кроме тех, у которых машинный ноль) уменьшилось на 1-2 порядка. Это следствие сужения круга поиска по организмам.

Так как по теореме Карлина у нас e-value прямо пропорционально размеру банка, доля вирусных белков в Swiss-Prot где-то примерно 1-10%.

4. Сравнение интерфейсов BLAST

По умолчанию мы все пользуемся интерфейсом BLAST, находящимся на NCBI. С ним я и буду сравнивать другие интерфейсы.

Интерфейс EBI

Первым делом стоит отметить то, что в этом интерфейсе всё разбито по шагам: сначала выбери банк, потом введи последовательность и т. д.

Далее, что я уже сказал в предыдущем пунке, тут предлагает сначала выбрать банк, и только после этого забить последовательность. Также стоит отметить то, что здесь по умолчанию стоит именно Swiss-Prot, а не некий "non-redundant protein sequences", как в NCBI. Это добавляет удобства.

Стоит заметить, что выбор банков гораздо обширнее, нежели в NCBI (наличие хотя бы, банков TrEMBL, UniRef или Reference Proteomes). Есть возможность выбирать несколько разных отдельных банков для поиска.

Также тут можно выбрать матрицу замен, штраф за индель и штраф за удлинение инделя отдельно. Т. е. все три параметра настраиваются обособленно, в отличие от интерфейса NCBI, где есть только "наборы" параметров. Более тонкая настройка - преимущество EBI.

Также здесь не фиксированные длины слова, как у NCBI (2, 3 и 6), а изменяемые, можно ставить любое значение: 1, 2, 3, 4, 5, 6, 7, 8 и т. д. Можно даже поставить отрицательную длину слова, но мне пока не понятно, зачем это делать. Ещё одно преимущество EBI.

В интерфейсе BLAST EBI, как и в NCBI, присутствует возможность ограничить поиск по каким-либо таксономическим единицам, а также есть фильтр по участкам со смещённым составом.

В интерфейсе BLAST EBI имеется такой параметр, как dropoff. К сожалению, у меня так и не получилось разобраться в том, как этот параметр влияет на выход программы.

Никакого очевидного способа скачать результат поиска BLAST в EBI мною обнаружено не было. Можно посмотреть выходы программы в текстовом виде в самых различных вариациях во вкладке "Result summary", но скачать эти результаты не представляется возможным.

EBI_BLAST_flatout.png
Один из текстовых выходов EBI BLAST

Мой вывод: я считаю, что интерфейс NCBI BLAST более удобный в использовании и что его показатель "userfriendly" выше, нежели в интерфейсе EBI BLAST. Но второй можно использовать при необходимости в проведении более точного и специфичного поиска, так как его функционал шире, чем у первого интерфейса, а также искать по тем базам данных, которых нет в списке выбора NCBI.

Интерфейс ExPASy

Отличается этот интерфейс от предыдущих двух тем, что здесь невероятно скудный выбор баз данных (или я чего-то не понял). То, что нашёл я, можно пересчитать по пальцам: Complete database, Proteomes, Reference proteomes, UniRef100, UniRef90, UniRef50, PDB и галочка "UniProtKB/Swiss-Prot only", которая для всех выше перечисленных баз поставит ограничение на референсность. Ну и, собственно, всё.

Есть ещё один минус: при формировании запроса необходимо самому выбирать матрицу замен амникислот.

В этом интерфейсе нельзя поставить количество находок меньше, чем 50. Для меня это незначительный, но минус, так как в других интерфейсах можно ставить до 10, что довольно-таки удобно.

Нельзя выбрать длину слова. Не понятно, какая длина слова стоит в этом интерфейсе по умолчанию.

Можно выбрать выход в 4-х разных форматах, среди которых есть HTML и TXT. Как и в интерфейсе EBI BLAST, скачать текстовый файл с результатом поиска не представляется возможным.

Присутствует возможность фильтра по участкам малой сложности и возможность показывать/не показывать, учитывать/не учитывать гэпы при поиске.

ExPASy_BLAST_flatout.png
Текстовый выход ExPASy BLAST

Я не нашёл этот интерфейс для себя удобным и полезным. Единственное его отличие от остальных интерфейсов - это наличие в списке банков базы данных Proteomes: ни в одном интерфейсе выше такая база данных не была представлена.

Интерфейс UniProt

Это последний на сегодня интерфейс, который я рассмотрю в этом отчёте.

Сам интерфейс оказался лаконичным, с минимальным набором характеристик поиска.

Список банков не пышет разнообразием. Также таксономические ограничения поиска вынесены именно в меню выбора банков.

Также в параметрах можно выбрать матрицу замен, ограничение по E-value, наличие/отсутсвие гэпов, фильтр по участкам малой сложности и параметр "Hits", который позволяет ограничить чило находок в выходе программы.

Как и во всех предыдущих интерфейсах, скачать текстовый выход программы возможности нет.

UniProt_BLAST_flatout.png
Текстовый выход ExPASy BLAST

Лично мне этот интерфейс своим функционалом и дизайном нравится меньше, чем NCBI, но через его выход удобно быстро взаимодействовать с записями белков, которые были найдены программой.

5. Поиск "гомологов" бессмысленной последовательности

Для того, чтобы провести этот интересный эксперимент, я для начала создал рандомную последовательность длины 500 с помощью команды makeprotseq из пакета программ EMBOSS:

makeprotseq -amount 1 -length 500 'fasta::randseq.fasta'

И выход этой программы оказался таким:

>EMBOSS_001
ttddqylcicnnmilhyskdgqlyrmlpyetwisqptymitscnwhnwwyqgqkstlwfy
hwlfymtvnielimppmqyfmcfpinpgpvmrpvekvmsdpekwtqtvpsgvmvmiylly
anqttlvnnnatsgreqctnqvprmvhylyfgytrwggecllmgwifaemwfcehntdmd
gnqnpddylsrvlrsthllsravpktqkypvtafgswkinqkvyecergmgenpkryyhp
eetllinkwynwmsmefyvqqiypywvwtwrwqsetammnprnptaynkmngvmvcfdps
ndflvedaiitmvmydeivgmdmmssqtpqgwkvarhptrpfkdmpklpmchyalgmlkn
qgqltsqhsnqrqiseamfhyikgldrifgcqwmwqskgsfkveeidessymfertltpq
fwcsyyingivrnmrmfpwhrcaraqinvdepmlrvtspfeeyvngedvedwkfgqlqkm
pdqqdccngmaympshqvts

Эту последовательность я подал BLAST для поиска гомологов в Swiss-Prot с теми же самыми параметрами, как и в заданиях 1 и 2. Здесь вы найдёте текстовый файл с выходом программы.

Программа выдала лишь одну последовательность.

Все мои ожидания подтвердились: очень маленький процент покрытия (13%), очень маленький вес выравнивания (31.1 бита), довольно низкий, но не настолько низкий, как я ожидал, процент идентичности (25.8%) и, что, на мой взгляд, самое важное, большое значение e-value (5.8), что говорит о том, что находка абсолютно ненадёжна.

Недостаточно низкий процент индентичности можно, я думаю, объяснить маленьким процентом покрытия и удачным совпадением (если, конечно, команда makeprotseq создаёт реально рандомную последовательность). Да и тем более, этот процент опровергается большим значением e-value.

По итогу можно сказать, что гомологов у нашей последовательности в Swiss-Prot не существует, что логично, так как наша последовательность случайна и существовать не может.

Попробуем поискать в TrEMBL + UniParc, дабы окончательно убедиться в том, что никаких совпадений нет. Параметры поиска оставляем все те же самые.

BLAST выдал вот такую фразу: "No hits found."

Что ж, это было предсказуемо и объясняется всё той же теоремой Карлина и его математической формулой. Мы решили поискать гомологи нашего белка в банке, который в ~ 103 больше Swiss-Prot, а значит, что и E-value этой находки будет в ~ 103 больше E-value той находки, которую мы нашли ранее. А учитывая то, что у предыдущей находки E-value = 5.8, то её "новый" E-value стал бы равен ~ 5800, что никак не вписывается в рамки, которые я поставил при запросе - до 10.

Это всё лишь подтверждает то, что наша последовательность бессмысленна.