Поиск будет выполняться через программу BLAST.
Привожу параметры поиска:
В качестве запроса я подал BLAST'у последовательность в fasta-формате. Выбрал в Swiss-Prot в качестве банка, в котором будет проводиться поиск. Все остальные параметры оставил по умолчанию.
В разделе Algorithm parameters я указал, чтобы в выходе BLAST оказалось только 10 первых находок, так как мне больше и не требуется. Также я выбрал длину слова, равную 3-м, для более точного поиска гомологов. Также я активировал параметр Compositional adjustments для того, чтобы сделать поиск ещё точнее и отсеять выравнивания, содержащие участки с сильно смещённым составом.
Здесь вы можете найти результаты поиска BLAST. Из этих 10 находок я отобрал первые 7 (кроме самого исследуемого белка) по проценту индентичности и составил с ними и запросом множественное выравнивание.
Информация о множественном выравнивании 7 белков-гомологов с BACR_HALSA | ||||
---|---|---|---|---|
Рекомендованное имя белка | Выбранные AC (Swiss-Prot) | Идентичность | E-value | Проект JalView |
Bacteriorhodopsin | P02945 | 100% | 0 | bacr_8_align.jvp |
Archaerhodopsin-3 | P96787 | 61.4% | 3e-89 | |
Archaerhodopsin-1 | P69051 | 60.6% | 2e-87 | |
Bacteriorhodopsin-I | G0LFX8 | 55.9% | 5e-73 | |
Archaerhodopsin-2 | P29563 | 55.5% | 2e-79 | |
Cruxrhodopsin-3 | P94854 | 54.4% | 3e-65 | |
Bacteriorhodopsin | O93740 | 54.4% | 6e-61 | |
Bacteriorhodopsin-II | Q5V0R5 | 54.1% | 1e-66 |
В выравнивании огромное количество высокоиндентичных участков (например, столбцы 85-117 и 227-254) и высококонсервативных участков (например, столбцы 97-110 и 237-243). Также, я заметил около 3-х участков достаточно больших вставок (столбцы 9-19, 150-155 и 265-270), но схожих участков гораздо и гораздо больше, они сильно преобладают над выделенными мною вставками.
Вышеприведённая информация даёт нам возможность смело сказать, что все 8 белков гомологичны.
7 гомологов найдено!
Этот белок я уже нашёл и выделил в виде fasta-файла в практикуме 9, задание 2. Содержимое этого файла я подам BLAST'у под теми же параметрами, что и предыдущем задании.
Здесь ссылка на файл результата поиска.
Информация о множественном выравнивании 8-ми белков-гомологов с белком 3CL_PRO | |||||
---|---|---|---|---|---|
Рекомендованное имя запроса | Координаты в полипротеине | Выбранные AC (Swiss-Prot) | Идентичность | E-value | Проект JalView |
3C-like proteinase | 3248 - 3553 | P0C6X7 | 100% | 0.0 | 3cl_pro_9_align.jvp |
P0C6T5 | 82.7% | 9e-179 | |||
P0C6W4 | 82.7% | 2e-178 | |||
P0C6T4 | 81.1% | 3e-175 | |||
P0C6W3 | 81.1% | 4e-175 | |||
P0C6F7 | 80.7% | 6e-175 | |||
P0C6W1 | 80.7% | 1e-174 | |||
P0C6Y0 | 54.6% | 2e-106 | |||
P0C6X4 | 54.3% | 2e-106 |
Само выравнивание перед анализом я обрезал по концам последовательности-запроса, сократил с длины 7000+ а. о. до 306.
В самом выравнивании я удалил две последовательности (K9N638 и K9N7C7), которые были полностью идентичны зрелому белку 3CL_PRO. Также, в самом выравнивании я удалил ещё три последовательности (P0C6F7, P0C6W1 и P0C6W3) из четырёх, которые между собой также полностью идентичны, за исключением одного столбца (160), в котором Leu менялся на Ile, т. е. 2 очень похожие аминокислоты сменили друг друга. Оставил я ту последовательность, у которой в 160 столбце находится изолейцин (P0C6T4) потому, что в запросе в 160-м столбце находится изолейцин. Ещё я удалил одну из 2-х идентичных последовательностей (P0C6T5 и P0C6W4).
Итог такой: в выравнивании осталось всего 5 последовательностей, включая запрос.
Ну и, судя по этому выравниванию, мы можем смело сказать, что все 5 (11) белков гомологичны. Во-первых, огромное количество консервативных участков (столбцы 1-6, 25-33). Во-вторых, большое количество высоко идентичных участков (столбцы 138-153, 204-219, например). В-третьих, оооочень маленькие значения e-value.
Далее я повторил поиск, какой был в предыдущем задании, только поставил фильтр по организмам - Viruses.
Здесь ссылка на результат поиска.
Заметим, что все значения e-value у всех находок (кроме тех, у которых машинный ноль) уменьшилось на 1-2 порядка. Это следствие сужения круга поиска по организмам.
Так как по теореме Карлина у нас e-value прямо пропорционально размеру банка, доля вирусных белков в Swiss-Prot где-то примерно 1-10%.
По умолчанию мы все пользуемся интерфейсом BLAST, находящимся на NCBI. С ним я и буду сравнивать другие интерфейсы.
Первым делом стоит отметить то, что в этом интерфейсе всё разбито по шагам: сначала выбери банк, потом введи последовательность и т. д.
Далее, что я уже сказал в предыдущем пунке, тут предлагает сначала выбрать банк, и только после этого забить последовательность. Также стоит отметить то, что здесь по умолчанию стоит именно Swiss-Prot, а не некий "non-redundant protein sequences", как в NCBI. Это добавляет удобства.
Стоит заметить, что выбор банков гораздо обширнее, нежели в NCBI (наличие хотя бы, банков TrEMBL, UniRef или Reference Proteomes). Есть возможность выбирать несколько разных отдельных банков для поиска.
Также тут можно выбрать матрицу замен, штраф за индель и штраф за удлинение инделя отдельно. Т. е. все три параметра настраиваются обособленно, в отличие от интерфейса NCBI, где есть только "наборы" параметров. Более тонкая настройка - преимущество EBI.
Также здесь не фиксированные длины слова, как у NCBI (2, 3 и 6), а изменяемые, можно ставить любое значение: 1, 2, 3, 4, 5, 6, 7, 8 и т. д. Можно даже поставить отрицательную длину слова, но мне пока не понятно, зачем это делать. Ещё одно преимущество EBI.
В интерфейсе BLAST EBI, как и в NCBI, присутствует возможность ограничить поиск по каким-либо таксономическим единицам, а также есть фильтр по участкам со смещённым составом.
В интерфейсе BLAST EBI имеется такой параметр, как dropoff. К сожалению, у меня так и не получилось разобраться в том, как этот параметр влияет на выход программы.
Никакого очевидного способа скачать результат поиска BLAST в EBI мною обнаружено не было. Можно посмотреть выходы программы в текстовом виде в самых различных вариациях во вкладке "Result summary", но скачать эти результаты не представляется возможным.
Мой вывод: я считаю, что интерфейс NCBI BLAST более удобный в использовании и что его показатель "userfriendly" выше, нежели в интерфейсе EBI BLAST. Но второй можно использовать при необходимости в проведении более точного и специфичного поиска, так как его функционал шире, чем у первого интерфейса, а также искать по тем базам данных, которых нет в списке выбора NCBI.
Отличается этот интерфейс от предыдущих двух тем, что здесь невероятно скудный выбор баз данных (или я чего-то не понял). То, что нашёл я, можно пересчитать по пальцам: Complete database, Proteomes, Reference proteomes, UniRef100, UniRef90, UniRef50, PDB и галочка "UniProtKB/Swiss-Prot only", которая для всех выше перечисленных баз поставит ограничение на референсность. Ну и, собственно, всё.
Есть ещё один минус: при формировании запроса необходимо самому выбирать матрицу замен амникислот.
В этом интерфейсе нельзя поставить количество находок меньше, чем 50. Для меня это незначительный, но минус, так как в других интерфейсах можно ставить до 10, что довольно-таки удобно.
Нельзя выбрать длину слова. Не понятно, какая длина слова стоит в этом интерфейсе по умолчанию.
Можно выбрать выход в 4-х разных форматах, среди которых есть HTML и TXT. Как и в интерфейсе EBI BLAST, скачать текстовый файл с результатом поиска не представляется возможным.
Присутствует возможность фильтра по участкам малой сложности и возможность показывать/не показывать, учитывать/не учитывать гэпы при поиске.
Я не нашёл этот интерфейс для себя удобным и полезным. Единственное его отличие от остальных интерфейсов - это наличие в списке банков базы данных Proteomes: ни в одном интерфейсе выше такая база данных не была представлена.
Это последний на сегодня интерфейс, который я рассмотрю в этом отчёте.
Сам интерфейс оказался лаконичным, с минимальным набором характеристик поиска.
Список банков не пышет разнообразием. Также таксономические ограничения поиска вынесены именно в меню выбора банков.
Также в параметрах можно выбрать матрицу замен, ограничение по E-value, наличие/отсутсвие гэпов, фильтр по участкам малой сложности и параметр "Hits", который позволяет ограничить чило находок в выходе программы.
Как и во всех предыдущих интерфейсах, скачать текстовый выход программы возможности нет.
Лично мне этот интерфейс своим функционалом и дизайном нравится меньше, чем NCBI, но через его выход удобно быстро взаимодействовать с записями белков, которые были найдены программой.
Для того, чтобы провести этот интересный эксперимент, я для начала создал рандомную последовательность длины 500 с помощью команды makeprotseq из пакета программ EMBOSS:
makeprotseq -amount 1 -length 500 'fasta::randseq.fasta'
И выход этой программы оказался таким:
>EMBOSS_001 ttddqylcicnnmilhyskdgqlyrmlpyetwisqptymitscnwhnwwyqgqkstlwfy hwlfymtvnielimppmqyfmcfpinpgpvmrpvekvmsdpekwtqtvpsgvmvmiylly anqttlvnnnatsgreqctnqvprmvhylyfgytrwggecllmgwifaemwfcehntdmd gnqnpddylsrvlrsthllsravpktqkypvtafgswkinqkvyecergmgenpkryyhp eetllinkwynwmsmefyvqqiypywvwtwrwqsetammnprnptaynkmngvmvcfdps ndflvedaiitmvmydeivgmdmmssqtpqgwkvarhptrpfkdmpklpmchyalgmlkn qgqltsqhsnqrqiseamfhyikgldrifgcqwmwqskgsfkveeidessymfertltpq fwcsyyingivrnmrmfpwhrcaraqinvdepmlrvtspfeeyvngedvedwkfgqlqkm pdqqdccngmaympshqvts
Эту последовательность я подал BLAST для поиска гомологов в Swiss-Prot с теми же самыми параметрами, как и в заданиях 1 и 2. Здесь вы найдёте текстовый файл с выходом программы.
Программа выдала лишь одну последовательность.
Все мои ожидания подтвердились: очень маленький процент покрытия (13%), очень маленький вес выравнивания (31.1 бита), довольно низкий, но не настолько низкий, как я ожидал, процент идентичности (25.8%) и, что, на мой взгляд, самое важное, большое значение e-value (5.8), что говорит о том, что находка абсолютно ненадёжна.
Недостаточно низкий процент индентичности можно, я думаю, объяснить маленьким процентом покрытия и удачным совпадением (если, конечно, команда makeprotseq создаёт реально рандомную последовательность). Да и тем более, этот процент опровергается большим значением e-value.
По итогу можно сказать, что гомологов у нашей последовательности в Swiss-Prot не существует, что логично, так как наша последовательность случайна и существовать не может.
Попробуем поискать в TrEMBL + UniParc, дабы окончательно убедиться в том, что никаких совпадений нет. Параметры поиска оставляем все те же самые.
BLAST выдал вот такую фразу: "No hits found."
Что ж, это было предсказуемо и объясняется всё той же теоремой Карлина и его математической формулой. Мы решили поискать гомологи нашего белка в банке, который в ~ 103 больше Swiss-Prot, а значит, что и E-value этой находки будет в ~ 103 больше E-value той находки, которую мы нашли ранее. А учитывая то, что у предыдущей находки E-value = 5.8, то её "новый" E-value стал бы равен ~ 5800, что никак не вписывается в рамки, которые я поставил при запросе - до 10.
Это всё лишь подтверждает то, что наша последовательность бессмысленна.