Практикум 10. Работа с BLAST.

Задание 1. Поиск гомологов.

На вход была подана последовательность белка DNA gyrase subunit B в формате fasta. Далее я задал параметры поиска:

В результате было найдено 107 последовательностей (текстовая выдача программы). Из них я выбрал следующие 7:

  1. DNA gyrase subunit B [Salmonella enterica subsp. enterica serovar Typhimurium str. LT2]
  2. DNA gyrase subunit B; AltName: Full=Type IIA topoisomerase subunit GyrB [Escherichia coli K-12]
  3. DNA gyrase subunit B [Haemophilus influenzae Rd KW20]
  4. DNA gyrase subunit B [Vibrio cholerae O1 biovar El Tor str. N16961]
  5. DNA gyrase subunit B [Vibrio parahaemolyticus RIMD 2210633]
  6. DNA gyrase subunit B [Pseudomonas putida]
  7. DNA gyrase subunit B [Buchnera aphidicola str. Sg (Schizaphis graminum)]

С помощью команды Muscle with Defaults в Jalview я построил множественное выравнивание (проект в Jalview). Данные белки являются гомологами, что следует из высокой идентичности столбцов в выравнивании.

Задание 2.

Я выбрал Envelopment polyprotein, выделенный из New York virus (NYV).

Из полипротеина была вырезана последовательность зрелого белка Glycoprotein C с координатами [653:1140] в полипротеине (ссылка на последовательность белка) с помощью команды:

seqret 'sw:GP_NYV[653:1140]' nyvsegm.fasta

После этого я получил список возможных гомологов данной последовательности в BLAST при тех же парамтрах поиска, что и в задании 1 (текстовая выдача программы). Всего было найдено 22 последовательности, но только у 4 Evalue не равнялся 0. Из четырех белков гомологами с референсным скорее всего являютя P41264.1, Q09120, так как столбцы с позиции 255 по 432 практически не отличаюся друг от друга (ссылка на данное выравнивание) . Другие две последовательности скорее всего не являются гомологами референсой, так как в выравнивании не встречаются длинные идентичные участки (выравнивание белков A6XIP3.1, Q8JSZ3.1).

Список белков, выбранных для выравнивания:

  1. P41264.1
  2. Q09120.1
  3. A6XIP3.1 (полипротеин)
  4. Q8JSZ3.1 (полипротеин)

Задание 3.

Был повторен поисковой запрос в BlAST для Glycoprotein C с добавлением парамтера Organism: Viruses (taxid:10239). В итоге результат поиска сократился с 22 белков до 21, а значение Evalue для Q09120.1 изменилося с 4e-117 на 1e-115. Через теорему Карлина мы можем выразить долю вирусных белков в Swissprot разделив конечное значение Evalue на начальное. Вычислив, получим, что доля вирусных белков равна 0.04 или 4%.