Практикум 10
- Поиск гомологов белка в базе данных Swissprot
- Парамеры выравинивания
- Параметры поиска
- Параметры выдачи
- Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина
- Фрагмент Envelope glycoprotein gp70 Mouse mammary tumor virus (STRAIN C3H)
- Envelope glycoprotein gp70 Mouse mammary tumor virus (STRAIN BR6)
- Envelope glycoprotein Jaagsiekte sheep retrovirus
- Endogenous retrovirus group K member 24 Env polyprotein Homo sapiens
- Endogenous retrovirus group K member 21 Env polyprotein Homo sapiens
- Endogenous retrovirus group K member 13-1 Env polyprotein Homo sapiens
- Исследование зависимости E-value от объёма банка
- Сравнение интерфейсов BLAST
- Поиск "гомологов" бессмысленной последовательности
Белок из практикума 7 – обратная гираза (reverse gyrase, AC A0A833DZW1).
Параметры поиска:
Матрица аминокислотных замен: BLOSUM62
Штраф за открытие инделя: 11
Штраф за продолжение инделя: 1
Есть учёт частот встречаемости аминокислот для борьбы с участками малой сложности
Алгоритм: blastp
База данных: UniProtKB/Swiss-Prot(swissprot)
Длина слова: 5
Максимальное число находок: 100
Пороговое значение E-value: 0.05
Так как белок находится в базе данных TrEMBL, поиск был по самой последовательности.
В выдаче есть обратные гиразы, для которых query cover близко к 100%, и топоизомеразы ДНК, для которых этот парметр около 50% и ниже. Видимо, у этих белков гомологичен только один домен, и поэтому нельзья строить глобальное выравнивание с ними, так как местами оно будет бессмысленно.
Были взяты гиразы организмов Methanocaldococcus jannaschii, Pyrococcus furiosus, Sulfurisphaera tokodaii, Sulfolobus acidocaldarius, Pyrococcus horikoshii.
Выбранные белки гомологичны, хотя видно, что они уже довольно давно разошлись в ходе эволюции. Есть несколько участков с высокой консервативностью, они, скорее всего, как раз и образуют активные центры.
Envelope glycoprotein gp70 (ID: ENV_MMTVC, AC: Q85646; Q9IZT0;)
Mouse mammary tumor virus (strain C3H) (MMTV)
Полипротеин включает 3 белка, один из них – Transmembrane protein (457..688). Полученный файл с вырезанным фрагментом был подан на вход BLAST.
В выдаче есть не только белки вирусов, но и, внезапно, белки человека. Данный вирус – ретровирус, как и родственный ему человеческий Endogenous retrovirus group K, и так, видимо, он попал в протеом человека.
Потом было проведено выравнивание последовательностей белков:
Поиск был осуществлён с теми же параметрами, за исключением того, что поиск проводился только по вирусам, при этом белки Endogenous retrovirus group K, ожидаемо, не нашлись.
\[E\text{-}value = Kmne^{-\lambda S}\] \[\frac{n_1}{n_2}\ = \frac{E\text{-}value_1}{E\text{-}value_2}\]Например, для белка из Mouse mammary tumor virus (STRAIN BR6) значение E-value равно 6⋅10-160 и 2⋅10-161 соответственно.
Тогда соотношение n1/n2 равно 2⋅10-161/6⋅10-160 = 0.033. Примерно такую долю составляют вирусные белки в Swissprot.
В разных интерфейсах BLAST доступны разные базы данных, например, в EBI можно выбрать сразу несколько баз данных, по которым будет осуществляться поиск, и среди этих баз данных есть много различных баз UniProt, в том числе TrEMBL и UniParc, отсутствующие в BLAST на сайте NCBI. И наоборот, например, RefSeq, являющаяся базой данных NCBI, есть только в интерфейсе NCBI.
Если про белок заранее уже что-то известно, можно искать его по специфической базе данных, и это займёт намного меньше времени. Напрмер, если белок является вариацией главного комплекса гистосовместимости, его лучше искать в отдельной базе данных IPD-MHC (Immuno Polymorphism Database-Major Histocompatibility Complex).
В интерфейсе EBI больше вариабельность того, какие штрафы можно поставить за открытие и продлжение инделя, даже с учётом того, что не для всех сочетаний пунктов выпадающего меню можно запустить алгоритм, так как нельзя рассчитать E-value. На word size есть ограничение: он должен быть меньше 8, но можно установить даже 1, и алгоритм запустится, хотя при этом выдаст ошибку. В целом, интерфейс содержит меньше "защиты от дурака", но специфические настройки параметров поиска, наверное, могут быть полезны.
Такие формы представлениея данных, как таблица, текст и визуальное представление, есть в обоих интерфейсах. Интерфейс EBI ещё предсказывает функцию белка, а интерфейс NCBI отображает распределение организмов с найденными белками по таксонам.
При помощи скрипта была составлена последовательность аминокислот, затем переданная BLAST.
Даже при word size равном 3 нашлось 3 последовательности, и их E-value сравнительно высокий, минимальное значение - 0.73. Длина получившихся выравниваний около 50 аминокислотных остатков, и вряд ли будет сильно больше при увеличении размера запроса.
Кроме того, для осмысленной последовательности можно ожидать, что найденные белки будут иметь сходные функции или найдутся у родственных организмов, чего нельзя сказать о полученных данных.