Практикум 10

Поиск гомологов белка METAA_SUCHY (AC:E8LIC0) в Swiss-Prot

Так как у бактерии Succinivibrio dextrinosolvens нет белков, находящихся в базе Swiss-Prot, был выбран белок бактерии Succinatimonas hippei, находящейся в одном семействе Succinivibrionaceae с бактерией Succinivibrio dextrinosolvens. Данный белок является трансферазой и выполняет функцию переноса ацетильной группы.

Для поиска голомов в BLAST были использованы следующие параметры:

Датабаза: Swiss-Prot
Ввод последовательности: E8LIC0
Алгоритм: blastp
Algorithm parameters
Максимальный размер выдачи: 500
Word size: 5
порог на E-value: 0,05
матрица: BLOSUM62
Штрафы за открытие и закрытие гэпов: открытие - 11, закратие - 1
Композиционные корректировки: условная компазиционная корректировка матрицы счета

При выравнивании все белки оказались гомологичными в равной степени, так как все крупные консервативные блоки совпадают. Например, блоки 41-48, 106-110, 189-193, 233-239.

Ссылки:

  • Тестовая выдача программы BLAST
  • Выборка 7-ми белков
  • Выравнивание Jalview

  • Поиск гомологов вирусного белка

    С помощью расширенного поиска Uniprot был найден и выбран вирусный белок Puumala virus (strain P360).

    Информация о выбранном белке:

    ID: GP_PUUMP
    AC: P41266
    OS: Puumala virus (strain P360)
    CHAIN: Glycoprotein N
    CHAIN coordinates: 24..658

    С помощью команд EMBOSS последовательность зрелого белка была вырезана в отдельный файл с измененным названием и описанием. Команда: descseq -seq 'sw:GP_PUUMP[24:658]' -out ssegment.fasta -name "Envelopment polyprotein" -desc "OS=Puumala virus (strain P360)(M polyprotein)"

    По запросу в BLAST было найдено 19 последовательностей, 18 из которых имеют E-value 0.0, что свидетельствует о достоверности этих находок.

    Из результатов выравнивания можно сделать вывод, что все последовательности белков гомологичны. В выравнивании присутсвует несколько консервативных блоков (Например: 11-13, 42-45, 117-118, 127-129, 158-159, 170-171, 173-174, 270-274, 321-322, 433-439, 464-469, 635-639), однако одна последовательность не входит ни в один из них.

    Ссылки:

  • Вырезанный зрелый белок
  • Текстовая выдача программы BLAST
  • Выравнивание Jalview

  • Исследование зависимости E-value от объёма банка.

    При изменении поиска с помощью добавления поиска по организму (Organism: Viruses (taxid:10239)) количество находок не изменилось, однако изменилось значение E-value для некторых из них.


    Таблица 1
    Protein AC E-value 1 E-value 2
    Q09120 4e-164 2e-165
    Q8JSZ3 0.002 1e-04
    A6XIP3 0.003 1e-04

    Из проделаннного эксперимента можно сделать вывод, что с уменьшением базы уменьшается и E-value. Это можно подтвердить с помощью формулы С.Карлина E-value=Kmn·e^-λS, где n - размер базы. Из формулы видно, что E-value изменяется прямопропорциально размеру базы. Поэтоиу можно посчитать какю долю вирусные составляют в базе Swiss-Prot. Например для белка с AC Q09120 E-value2/E-value1 * 100% = 4,2%. Следовательно доля вирусных белков: 4,2%.

    Сравнение интерфейсов BLAST

    Чтобы сравнить интерфейсы BLAST в NCBI, EBI и Uniprot, был проведен поиск гомологов для белка c ID METAA_SUCHY.

    NCBI:
    • Наиболее широкие параметры настройки поиска
    • На первый взгляд интерфейс выглядит пугающе, но со временем очень просто привыкнуть и разобраться
    • Удобно, что результат можно автоматически открывать в новом окне, оставляя при этом страницу с заданными параметрами поиска
    • Формат вывода результатов наименее приятный и понятный, но конечно, содержательный

    EBI:
    • Из минусов: поиск только по последовательности
    • Параметров поиска больше, чем в Uniprot, но, если честно, я их увидела не сразу
    • Не очень удобный формат общей выдачи результатов (Summary Table), при этом остальные результаты удобны для обработки и очень наглядны

    Uniprot:
    • За несколько практикумов интерфейс стал привычным и приятным
    • Удобный формат установки параметров поиска, которые присутсвуют в необходимом объеме
    • Формат вывода результатов удобный, хоть и не такой обширный, как в EBI
    • Есть страница с параметрами поиска, что, в целом, удобно и, из необычного, таксономическое дерево

    Таким образом, наиболее удобным мне показался BLAST в EBI и Uniprot, хотя большее доверие почему-то BLAST NCBI.


    Поиск "гомологов" бессмысленной последовательности

    Случайная последовательность для выполнения данного задания была сгенерирована с помощью скрипта Python. В результате поиска в BLAST при E-value = 10 было найдено 2 гомолога с E-value 6.7 и 8.6. Интересно, что первый принадлежит бактерии Stenotrophomonas maltophilia (strain K279a), а второй мыши Mus musculus. Выравнивания последовательностей очень короткие, а значения E-value очень высокие. Поэтому бессмысленная последовательность действительно бессмысленна, хоть к ней и были найдены гомологи.


    Таблица 2. Результаты выравниваний
    Protein Identities Positives Gaps
    KMO_STRMK 7/17(41%) 14/17(82%) 0/17(0%)
    SERC4_MOUSE 15/39(38%) 24/39(61%) 1/39(2%)

    Ссылки:

  • последовательность
  • скрипт