Практикум 10: Поиск гомологов и выравнивание последовательностей

1. Поиск гомологов белка B9KYS1

В практикуме 7 проводилась работа с белком B9KYS1 (Ketol-acid reductoisomerase (NADP(+))) бактерии Thermomicrobium roseum DSM 5159. В данном практикуме осуществлялся поиск его гомологов по базе данных Swiss-Prot через Protein BLAST.

Параметры, использовавшиеся для запуска BLAST:

Гиперссылка на текстовую выдачу программы (B9KYS1)

Для проведения множественного выравнивания с исходным белком были выбраны 6 находок из 538: A5IJM5.1, B1L8U5.1, B9KB98.1, K4LVZ1.1, Q2RIS6.1 и A4XIL7.1. Последовательности этих записей были скачаны в fasta-формате и выравнены с помощью программы muscle.

На kodomo был создан текстовый файл с ID всех белков (ilvc.txt) c содержимым:

sw:ilvc_therp sw:ilvc_thep1 sw:ilvc_thesq sw:ilvc_thenn sw:ilvc_theps sw:ilvc_moota sw:ilvc_cals8

Далее использовались команды:

seqret @ilvc.txt ilvc.fasta
muscle -align ilvc.fasta -output ilvc_alignment.fasta

Файл с проектом Jalview

Все 7 последовательностей гомологичны, что подтверждается наличием строго консервативных участков в выравнивании, малым количеством гэпов, а также единой функциональной аннотацией записей.

2. Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина Q86924

По Uniprot запросу "(taxonomy_id:10239) AND (protein_name:polyprotein) AND (reviewed:true)" в Swiss-Prot были найдены 1214 записей вирусных полипротеидов. Для выполнения задания был взят белок с OS AURA VIRUS (AURAV), ID POLN_AURAV и AC Q86924.

Далее производился поиск зрелых белков Q86924 в записи Swiss-Prot по полю FT и ключам CHAIN. Белок RNA-directed RNA polymerase nsP4 с координатами 1890..2499 был выбран для дальнейшего анализа. Средствами EMBOSS его последовательность была вынесена в отдельный файл:

seqret -sequence Q86924:1890-2499 -outseq q86924_nsp4.fasta

Полученная последовательность была подана в качестве запроса на вход BLAST (поле Enter accession number(s), gi(s), or FASTA sequence(s)), остальные параметры остались неизменны.

Гиперссылка на текстовую выдачу программы (nsP4)

Из 35 найденных записей для проведения выравнивания с Q86924.3 были выбраны P03317.2, P27283.2, P08411.2, P87515.3, P13896.3 и P13888.2. Множественное выравнивание проводилось в Jalview с помощью программы muscle, после чего было обрезано по краям под длину последовательности исходного белка (nsP4).

Файл с проектом Jalview

Все 7 последовательностей гомологичны, что подтверждается большим количеством консервативных участков в выравнивании, малым количеством гэпов и высоким процентом идентичности записей.

3. Исследование зависимости E-value от объёма банка

При повторении предыдущего запроса в BLAST с применением фильтра по организмам (поиск был ограничен таксоном Viruses) общее число найденных результатов осталось равным 35, но E-value большинства находок уменьшилось. Для исследования была выбрана запись Q66220.2 (RNA-directed RNA polymerase из вируса Youcai mosaic virus): её E-value изменилось с 1e-09 (без фильтра) до 4e-11 (с фильтром). Отношение E-value составило 0,04, что позволяет оценить долю вирусных белков в Swiss-Prot как 4%.

← Назад к практикумам второго семестра