Практикум 10

Работа с гомологами белка recA Neptuniibacter halophilus.

Поиск гомологов выбранного мной белка в Swiss-Prot

Сначала я запустил BLAST для последовательности своего белка. Ниже приведены все параметры, отличающиеся от параметров по умолчанию, а также запрос.

После выполнения запроса я нашёл семь подходящих белков с E-value больше "машинного нуля" и получил FASTA-файл с нужными последовательностями.

Далее я открыл его в JalView и запустил Muscle. Получил и покрасил выравнивание. Также отсортировал его по попарной идентичности.

Белки из выравнивания решил не удалять. Активный центр (GPESSGKT)[1] оказался консервативным, а в прочих позициях нет радикально отличающихся доменов.

Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина в Swiss-Prot

Сначала нужно найти такую запись в UniProt. Я решил работать с ВИЧ.

UniProtKB:

(taxonomy_id:11676) AND (protein_name:polyprotein) AND (reviewed:true)

Было получено 125 находок. Среди них я выбрал самую большую:

Дальше я нашёл все ключевые слова 'CHAIN', выбрал последовательность для обратной транскриптазы и вырезал её.

Я скопировал последовательность из файла, полученного выше, и запустил по ней BLAST.

Выдача BLAST.

Я получил результаты и выбрал 8 белков, в том числе один для Homo sapiens (Endogenous retrovirus group K member 7 Pol protein). FASTA-файл

Получено выравнивание.

Также я запустил BLAST второй раз, но уже только для Viruses

Выдача BLAST.

FASTA-файл с выбранными белками

Исследование зависимости E-value от объёма банка

По этому запросу все ненулевые E-value стали меньше, чем по первому, а белки, в систематике которых был указан Homo sapiens, больше не отображались.

Например, для кошачьего иммунодефицита в первом случае E-value - 2e-159, а во втором - 1e-160. Второе очевидно меньше.

Я поделил первое на второе, чтобы нивеллировать влияние констант. Вирусных оказалось в 20 раз меньше, чем прочих белков. Для трёх белков кошачьего иммунодефицита это значение оказалось равным 16,689.

Изменение E-value я связываю с уменьшением набора последовательностей по которым мы производим поиск. Таким образом, случайная последовательность имеет меньшую вероятность совпадения с некоторой последовательностью из набора.

Источники:

  1. recA для Bacillus subtilis - UniProt.