В практикуме 7 мною был выбран белок Rickettsia asiática дигидрофолатсинтаза/фолилполиглутаматсинтаза. Для поиска гомологов данного белка в Swiss-Prot я использовала BLAST, задав следующие параметры поиска:
Поиск выдал 31 результат.Текстовая выдача программы
В программе Jalview было выполнено множественное выравнивание.C 30 по 420 позицию наблюдается высококонсервативный участок в последовательностях (в этой позиции у белка дигидрофолатсинтазы/фолилполиглутаматсинтазы находится Mur-домен). Вероятнее всего эти белки имеют общее происходение, являются гомологичными.
В Swiss-Prot был найден полипротеин из Middelburg virus (ID - POLN_MIDDV; AC - P03318).
Полипротеин разрезается на несколько зрелых белков, один из которых РНК-зависимая РНК-полимераза nsP4 (RNA-directed RNA polymerase nsP4) с координатами с 386 по 995. С помощью EMBOSS была вырезана последовательность зрелого белка.
Последовательность зрелого белка.
Для поиска гомологов зрелого вирусного белка была использована программа BLAST с теми же параметрами, что и в задании 1. Поиск выдал 35 результатов.
Для множественного выравнивания были выбраны следующие 7 белков(далее указаны AC белков): P13888.2, P13887.2, Q9JGL0.3, Q5Y389.3, P08411.2, Q8JUX6.1, Q8QZ73.3.Множественное выравнивание было выполнено с помощью Jalview.
Думаю, что вероятнее всего все эти белки являются гомологичными. Вывод был сделан исходя из того, что все 7 белков имеют достаточно схожую последовательность.
В этом задании был выполнен поиск с теми же параметрами BLAST, но был применен фильтр по огранизмам, ограничивающий поиск вирусами.
Поиск выдал 33 результата.
E-value для последовательностей, которые были в обоих запросах также изменился. E-value для многих последовательностей стал меньше. Это объяснимо, так как Е-Value пропорционален размеру базы, в которой происходил поиск.База вирусов меньше размера базы всех последовательностей.
Для одного из белков E-value в первом случае составлял 3e-13, во втором случае 1e-14. То есть E-value уменьшился в 30 раз, из этого можно сделать вывод о том, что доля вирусных белков в Swiss-Prot составляет около 1/30 или 3%.
В этом задании сравнивается интерфейс к BLAST на сайте NCBI и EBI.
В первую очередь можно обратить внимание на доступные банки. Так на сайте NCBI, в отличие от EBI, можно выбрать базу данных RefSeq(база данных на основе GenBank, часть записей курируется сотрудниками NCBI). На сайте EBI есть больше вариантов для выбора базы данных. Так например в отличие от NCBI, можно выбрать UniProtKB/TrEMB и многие другие.
При сравнении параметров можно заметить отличие в том, что в EBI большая вариабельность системы штрафов за открытие и продолжение гэпа, также можно отметить большую вариабельность у параметра word size. NCBI позволяет выбрать такие значения параметров использование которых наиболее рационально.
Форма представления результата. И на том, и на другом сайте результаты представлены в виде таблицы, что довольно удобно. Также на сайте EBI можно отдельно отобразить список тех же белков с аннотацией, отдельно с выравниванием. На сайте NCBI также есть вкладка выравниванием и кратким описанием того же списка белков.В NCBI есть также довольно полезная функция - распределение белков поиска по таксонам.