Программа BLAST

1. Поиск гомологов белка

Для поиска гомологов белка Queuine tRNA-ribosyltransferase был запущен алгоритм Blast с приведенными ниже параметрами:


Database UniProtKB/Swiss-Prot
Algorithm blastp
Max target sequences 100
Expect threshold 0.05
Word size 6
Matrix BLOSUM62
Compositional adjustments Conditional compositional score matrix adjustment
Filter Low complexity regions filter

Текстовую выдачу программы можно посмотреть здесь.

Далее были выбраны 7 организмов: Rhodobacter sphaeroides ATCC 17029, Caulobacter vibrioides CB15, Jannaschia sp. CCS1, Rickettsia bellii OSU 85-389, Granulibacter bethesdensis CGDNIH1, Agrobacterium fabrum str. C58 и Shewanella oneidensis MR-1. С их последовательностями можно ознакомиться здесь.

С помощью команды muscle -in seq.fasta -out seq_align.fasta было сделано множественне выравнивание этих последовательностей. Далее выравнивание было загружено в программу Jalview, где оно было покрашено по проценту идентичности: проект Jalview. С изображением выравнивания можно ознакомиться здесь.

В выравнивании прослеживается довольно много консервативных участков, например столбцы 39-52, 63-78, 98-111, 227-237, гэпы почти не встречаются. На основании этого можно сдлать вывод о гомологичности данных белков.



2. Гомологи зрелого вирусного белка, вырезанные из полипротеина

С помощью запроса taxonomy:"Viruses [10239]" name:polyprotein в UniProt был найден аннотированный полипротеин со следующими характеристиками:


UniProt ID POL2_CPMVS
UniProt AC P03599
Virus name Cowpea mosaic virus (strain SB)

Далее был выбран зрелый белок Large capsid protein, его координаты: 460-833.

C помощью програмы EMBOSS последовательность белка была вырезана в отдельный файл, команда: seqret 'sw:POL2_CPMVS[460:833]' virus.fasta.

Затем аналогично заданию 1 был выполнен поиск гомологов с помощью алгоритма BLAST и сделано множественное выравнивание.

Выдача BLAST

Выбранные последовательности для выравнивания

Команда для выравнивания: muscle -in virus_seq.fasta -out virus_seq_align.fasta

проект Jalview

Изображение выравнивания

Из выравнивания видно, что консервативных участков не так много. Возможно данные белки не гомологичны.



3. Исследование зависимости E-value от объёма банка

При добавлении к предыдущему поиску BLAST фильтра по организмам (Viruses), количество находок увеличилось на 7. Выдача BLAST.

Также для некоторых находок изменилось значение E-Value, например для Middelburg virus при первом запросе он составлял 9e-122, а при добавлении фильтра составил 4e-123 Так как значение E-value прямопропорционально размеру базы данных, в которой идет поиск, то доля вирусных белков в SwissProt равна 4e-123/9e-122 или примерно 4.45%.