Последовательность была задана в виде AC из UniProt, поиск осуществлялся в этой же базе данных (UniProtKB/SwissProt). Используемый алгоритм: blastp.
General Parameters | ||
---|---|---|
Max target sequences | E-value threshold | Word size |
100 | 0.05 | 6 |
Scoring Parameters | ||
Matrix | Gap Costs | Compositional adjustments |
BLOSUM62 | Existence: 11, Extension: 1 | Conditional compositional score matrix adjustment |
Дополнительно был включён Filter: Low complexity regions.
Ознакомиться с выдачей можно по ссылке.
Так как установленный порог E-value довольно низкий (0.05), то в выдаче присутствуют потенциально гомологичные малые субъединицы ДНК-праймаз эукариотического типа других архей. В Jalview было построено выравнивание с алгоритмом Muscle (проект). Последовательности, в целом, можно назвать гомологичными: в них выделяется большое количество консервативных участков и сайтов. Негомологичными являются концевые участки и участки, не учавствующие в функционировании белка.
Выбранные последовательности можно скачать по ссылке.
Для работы был выбран аннотированный полипротеин вируса иммунодефицита человека:
С "вырезанным" фрагментом можно ознакомиться по ссылке.
Полностью повторяют задание 1.
Ознакомиться с выдачей можно по ссылке.
Для выравнивания из выдачи BLAST'а были выбраны белки различных вирусов и один белок бактерии:
В Jalview с алгоритмом Muscle было построено множественное выравнивание. Последовательности имеют большое количество консервативных участков, поэтому их можно назвать гомологичными, однако RNAse H у N. europaea отличается двумя крупными инделями, что говорит о её сильной дивергенции.
После установки параметра поиска в пределах таксона Viruses из выдачи пропали все белки бактерий, которые присутствовали в предыдущем варианте. Суммарное количество находок уменьшилось до 77.
Для вычисления доли белков был взят Q82851: Gag-Pol polyprotein (Jembrana disease virus). Необходимые значения из выдачи приведены в таблице ниже.
Выдача | Score (S) | E-value (Ei) |
---|---|---|
1) All | 79.0 | 4e-17 |
2) Viruses | 79.0 | 2e-18 |
Оценка доли вирусных белков в UniProtKB/SwissProt: 5%
Несколько случайных последовательностей разной длины были сгенерированы с помощью Python. Они были забластованы на записи с двух баз данных: UniProtKB/Swiss-Prot(sw) и Metagenomic proteins (env_nr) с разным установленными threshold для E-value (0.05 и 10). Дополнительно длина слова поиска была установлена на 6, включена поправка на участки малой сложности.
Результаты выдачи(количество находок с E-value меньше указанного) сведены в таблицу. Если в каком-то случае никаких находок не присутствует, то в таблице стоит -
Seq | sw + 0.05 | sw + 10 | env_nr + 0.05 | env_nr + 10 |
---|---|---|---|---|
YRKSLRFQDIRQKVMEHLPLGLAWS | 3 | 22 | 3 | 25 |
TATCCVWPCEVHCVMAYTANHQIIHTEDVPRVLPQDVSDK | - | - | - | 1 |
INYEVMDINTEEEYGAGMKATFIPITVNHSWDVHPHVWDCWFCILISHSG | - | 3 | - | - |
Полученные результаты вполне планомерны: для короткой последовательности находятся совпадения с довольно высоким покрытием (56-92%), однако их E-value говорит об отсутствии гомологии между запросом и выдачей (>1e-2). Тем более, короткие последовательности с большим шансом найдутся в каком-либо белке, а каждое совпадение в выравнивании вносит больший вклад в процент покрытия и Score. Для длинных последовательностей (40-50 аминокислот) все находки имеют E-value больше 1.5, что однозначно говорит об отсутствии гомологии.
Данная работа иллюстрирует "неслучайность" эволюции, которая объясняется целым рядом причин:
В целом, это далеко не все причины, но суть остаётся прежней - аминокислотные последовательности белков неслучайны.