Практикум 10

  1. Поиск гомологов белка в базе данных Swissprot
  2. Белок из практикума 7 – обратная гираза (reverse gyrase, AC A0A833DZW1).

    Параметры поиска:

    Так как белок находится в базе данных TrEMBL, поиск был по самой последовательности.

    В выдаче есть обратные гиразы, для которых query cover близко к 100%, и топоизомеразы ДНК, для которых этот парметр около 50% и ниже. Видимо, у этих белков гомологичен только один домен, и поэтому нельзья строить глобальное выравнивание с ними, так как местами оно будет бессмысленно.

    Были взяты гиразы организмов Methanocaldococcus jannaschii, Pyrococcus furiosus, Sulfurisphaera tokodaii, Sulfolobus acidocaldarius, Pyrococcus horikoshii.

    Выбранные белки гомологичны, хотя видно, что они уже довольно давно разошлись в ходе эволюции. Есть несколько участков с высокой консервативностью, они, скорее всего, как раз и образуют активные центры.

  3. Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина
  4. Envelope glycoprotein gp70 (ID: ENV_MMTVC, AC: Q85646; Q9IZT0;)
    Mouse mammary tumor virus (strain C3H) (MMTV)

    Полипротеин включает 3 белка, один из них – Transmembrane protein (457..688). Полученный файл с вырезанным фрагментом был подан на вход BLAST.

    В выдаче есть не только белки вирусов, но и, внезапно, белки человека. Данный вирус – ретровирус, как и родственный ему человеческий Endogenous retrovirus group K, и так, видимо, он попал в протеом человека.

    Потом было проведено выравнивание последовательностей белков:

  5. Исследование зависимости E-value от объёма банка
  6. Поиск был осуществлён с теми же параметрами, за исключением того, что поиск проводился только по вирусам, при этом белки Endogenous retrovirus group K, ожидаемо, не нашлись.

    \[E\text{-}value = Kmne^{-\lambda S}\] \[\frac{n_1}{n_2}\ = \frac{E\text{-}value_1}{E\text{-}value_2}\]

    Например, для белка из Mouse mammary tumor virus (STRAIN BR6) значение E-value равно 6⋅10-160 и 2⋅10-161 соответственно.

    Тогда соотношение n1/n2 равно 2⋅10-161/6⋅10-160 = 0.033. Примерно такую долю составляют вирусные белки в Swissprot.

  7. Сравнение интерфейсов BLAST
  8. В разных интерфейсах BLAST доступны разные базы данных, например, в EBI можно выбрать сразу несколько баз данных, по которым будет осуществляться поиск, и среди этих баз данных есть много различных баз UniProt, в том числе TrEMBL и UniParc, отсутствующие в BLAST на сайте NCBI. И наоборот, например, RefSeq, являющаяся базой данных NCBI, есть только в интерфейсе NCBI.

    Если про белок заранее уже что-то известно, можно искать его по специфической базе данных, и это займёт намного меньше времени. Напрмер, если белок является вариацией главного комплекса гистосовместимости, его лучше искать в отдельной базе данных IPD-MHC (Immuno Polymorphism Database-Major Histocompatibility Complex).

    В интерфейсе EBI больше вариабельность того, какие штрафы можно поставить за открытие и продлжение инделя, даже с учётом того, что не для всех сочетаний пунктов выпадающего меню можно запустить алгоритм, так как нельзя рассчитать E-value. На word size есть ограничение: он должен быть меньше 8, но можно установить даже 1, и алгоритм запустится, хотя при этом выдаст ошибку. В целом, интерфейс содержит меньше "защиты от дурака", но специфические настройки параметров поиска, наверное, могут быть полезны.

    Такие формы представлениея данных, как таблица, текст и визуальное представление, есть в обоих интерфейсах. Интерфейс EBI ещё предсказывает функцию белка, а интерфейс NCBI отображает распределение организмов с найденными белками по таксонам.

  9. Поиск "гомологов" бессмысленной последовательности
  10. При помощи скрипта была составлена последовательность аминокислот, затем переданная BLAST.

    Даже при word size равном 3 нашлось 3 последовательности, и их E-value сравнительно высокий, минимальное значение - 0.73. Длина получившихся выравниваний около 50 аминокислотных остатков, и вряд ли будет сильно больше при увеличении размера запроса.

    Кроме того, для осмысленной последовательности можно ожидать, что найденные белки будут иметь сходные функции или найдутся у родственных организмов, чего нельзя сказать о полученных данных.