Гомологи белка

В 7 практикуме я выбрала субъединицу ДНК-гиразы B (A0A1D7US60_9LEPT). Здесь ссылка на fasta-файл.

При поиске гомологов в BLAST я указала максимальную выдачу 500 находок, а также вела поиск по таксону Bacteria. В результате, программа выдала мне 150 гомологов.

Для множественного выравнивания я использовала: GYRB_CHLTR, PARE_ENTFA, GYRB_EISEL, PARE_FRATH, PARE_BORBU. Выравнивание было покрашенно по проценту индентичности 100%. Все белки оказались гомологичны, так как оказалось много участков 100% совпадения, например на участках 125-140 и 360-370.

Гомологи белка

Я выбрала полипротеин POLN_ABPVR

Информация по белку и полипротеину:

Name: Replicase polyprotein

ID:POLN_ABPVR

AC:Q9DSN9

Organism Acute bee paralysis virus (strain Rothamsted) (ABPV)

Chain name:Replicase polyprotein

Coordinates:1..1096

В резльтате поиска, я нашла 70 гомологичных белка. Я выбрала 5: C6KEF6.1, P03304.1, Q8V0N6.1, P03600.1, Q91PP5.1. Изначальная цепь обозначена как POLN_ABPVR/1-1096. Выравнивание представленно здесь

Зависимость E-value от объёма банка

После того, как я провела поиск, ограничив его вирусами (Viruses), не изменилось. У белка Q9IJX4.1 изменилось E-value с 1e-110 на 5e-112.

По теореме Карлина, E-value зависит от длины исходной последовательности, констант, определяющихся параметрами счета веса, и размером базы данных. Из всего перечисленного меняется только размеромбазы данных (так как добавлен поиск по организму). Значит соотношение E-value в первом и во втором случае показывает содержание вирусных белков. Тогда содержание вирусных белков в базе данных - 5e-112/1e-110 = 0,05. Значит процент вирусов составляет примерно 5%.