1. Поиск гомологов белка B9KYS1
В практикуме 7 проводилась работа с белком B9KYS1 (Ketol-acid reductoisomerase (NADP(+))) бактерии Thermomicrobium roseum DSM 5159. В данном практикуме осуществлялся поиск его гомологов по базе данных Swiss-Prot через Protein BLAST.
Параметры, использовавшиеся для запуска BLAST:
- Enter accession number(s), gi(s), or FASTA sequence(s): B9KYS1
- Database - UniProtKB/Swiss-Prot (swissprot)
- Algorithm - blastp (protein-protein BLAST)
- Max target sequences - 1000
- Short queries - Automatically adjust parameters for short input sequences
- Expect threshold - 0.05
- Word size - 5
- Max matches in a query range - 0
- Matrix - BLOSUM62
- Gap Costs - Existence: 11, Extension: 1
- Compositional adjustments - Conditional compositional score matrix adjustment
Гиперссылка на текстовую выдачу программы (B9KYS1)
Для проведения множественного выравнивания с исходным белком были выбраны 6 находок из 538: A5IJM5.1, B1L8U5.1, B9KB98.1, K4LVZ1.1, Q2RIS6.1 и A4XIL7.1. Последовательности этих записей были скачаны в fasta-формате и выравнены с помощью программы muscle.
На kodomo был создан текстовый файл с ID всех белков (ilvc.txt) c содержимым:
Далее использовались команды:
Все 7 последовательностей гомологичны, что подтверждается наличием строго консервативных участков в выравнивании, малым количеством гэпов, а также единой функциональной аннотацией записей.
2. Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина Q86924
По Uniprot запросу "(taxonomy_id:10239) AND (protein_name:polyprotein) AND (reviewed:true)" в Swiss-Prot были найдены 1214 записей вирусных полипротеидов. Для выполнения задания был взят белок с OS AURA VIRUS (AURAV), ID POLN_AURAV и AC Q86924.
Далее производился поиск зрелых белков Q86924 в записи Swiss-Prot по полю FT и ключам CHAIN. Белок RNA-directed RNA polymerase nsP4 с координатами 1890..2499 был выбран для дальнейшего анализа. Средствами EMBOSS его последовательность была вынесена в отдельный файл:
Полученная последовательность была подана в качестве запроса на вход BLAST (поле Enter accession number(s), gi(s), or FASTA sequence(s)), остальные параметры остались неизменны.
Гиперссылка на текстовую выдачу программы (nsP4)
Из 35 найденных записей для проведения выравнивания с Q86924.3 были выбраны P03317.2, P27283.2, P08411.2, P87515.3, P13896.3 и P13888.2. Множественное выравнивание проводилось в Jalview с помощью программы muscle, после чего было обрезано по краям под длину последовательности исходного белка (nsP4).
Все 7 последовательностей гомологичны, что подтверждается большим количеством консервативных участков в выравнивании, малым количеством гэпов и высоким процентом идентичности записей.
3. Исследование зависимости E-value от объёма банка
При повторении предыдущего запроса в BLAST с применением фильтра по организмам (поиск был ограничен таксоном Viruses) общее число найденных результатов осталось равным 35, но E-value большинства находок уменьшилось. Для исследования была выбрана запись Q66220.2 (RNA-directed RNA polymerase из вируса Youcai mosaic virus): её E-value изменилось с 1e-09 (без фильтра) до 4e-11 (с фильтром). Отношение E-value составило 0,04, что позволяет оценить долю вирусных белков в Swiss-Prot как 4%.