1. Поиск гомологов белка
Для поиска гомологов белка Queuine tRNA-ribosyltransferase был запущен алгоритм Blast с приведенными ниже параметрами:
Database UniProtKB/Swiss-Prot Algorithm blastp Max target sequences 100 Expect threshold 0.05 Word size 6 Matrix BLOSUM62 Compositional adjustments Conditional compositional score matrix adjustment Filter Low complexity regions filter Текстовую выдачу программы можно посмотреть здесь.
Далее были выбраны 7 организмов: Rhodobacter sphaeroides ATCC 17029, Caulobacter vibrioides CB15, Jannaschia sp. CCS1, Rickettsia bellii OSU 85-389, Granulibacter bethesdensis CGDNIH1, Agrobacterium fabrum str. C58 и Shewanella oneidensis MR-1. С их последовательностями можно ознакомиться здесь.
С помощью команды muscle -in seq.fasta -out seq_align.fasta было сделано множественне выравнивание этих последовательностей. Далее выравнивание было загружено в программу Jalview, где оно было покрашено по проценту идентичности: проект Jalview. С изображением выравнивания можно ознакомиться здесь.
В выравнивании прослеживается довольно много консервативных участков, например столбцы 39-52, 63-78, 98-111, 227-237, гэпы почти не встречаются. На основании этого можно сдлать вывод о гомологичности данных белков.
2. Гомологи зрелого вирусного белка, вырезанные из полипротеина
С помощью запроса taxonomy:"Viruses [10239]" name:polyprotein в UniProt был найден аннотированный полипротеин со следующими характеристиками:
UniProt ID POL2_CPMVS UniProt AC P03599 Virus name Cowpea mosaic virus (strain SB) Далее был выбран зрелый белок Large capsid protein, его координаты: 460-833.
C помощью програмы EMBOSS последовательность белка была вырезана в отдельный файл, команда: seqret 'sw:POL2_CPMVS[460:833]' virus.fasta.
Затем аналогично заданию 1 был выполнен поиск гомологов с помощью алгоритма BLAST и сделано множественное выравнивание.
Выбранные последовательности для выравнивания
Команда для выравнивания: muscle -in virus_seq.fasta -out virus_seq_align.fasta
Из выравнивания видно, что консервативных участков не так много. Возможно данные белки не гомологичны.
3. Исследование зависимости E-value от объёма банка
При добавлении к предыдущему поиску BLAST фильтра по организмам (Viruses), количество находок увеличилось на 7. Выдача BLAST.
Также для некоторых находок изменилось значение E-Value, например для Middelburg virus при первом запросе он составлял 9e-122, а при добавлении фильтра составил 4e-123 Так как значение E-value прямопропорционально размеру базы данных, в которой идет поиск, то доля вирусных белков в SwissProt равна 4e-123/9e-122 или примерно 4.45%.