Гомологи белка
В 7 практикуме я выбрала субъединицу ДНК-гиразы B (A0A1D7US60_9LEPT). Здесь ссылка на fasta-файл.
При поиске гомологов в BLAST я указала максимальную выдачу 500 находок, а также вела поиск по таксону Bacteria. В результате, программа выдала мне 150 гомологов.
Для множественного выравнивания я использовала: GYRB_CHLTR, PARE_ENTFA, GYRB_EISEL, PARE_FRATH, PARE_BORBU. Выравнивание было покрашенно по проценту индентичности 100%. Все белки оказались гомологичны, так как оказалось много участков 100% совпадения, например на участках 125-140 и 360-370.
Гомологи белка
Я выбрала полипротеин POLN_ABPVR
Информация по белку и полипротеину:Name: Replicase polyprotein
ID:POLN_ABPVR
AC:Q9DSN9
Organism Acute bee paralysis virus (strain Rothamsted) (ABPV)
Chain name:Replicase polyprotein
Coordinates:1..1096
В резльтате поиска, я нашла 70 гомологичных белка. Я выбрала 5: C6KEF6.1, P03304.1, Q8V0N6.1, P03600.1, Q91PP5.1. Изначальная цепь обозначена как POLN_ABPVR/1-1096. Выравнивание представленно здесь
Зависимость E-value от объёма банка
После того, как я провела поиск, ограничив его вирусами (Viruses), не изменилось. У белка Q9IJX4.1 изменилось E-value с 1e-110 на 5e-112.
По теореме Карлина, E-value зависит от длины исходной последовательности, констант, определяющихся параметрами счета веса, и размером базы данных. Из всего перечисленного меняется только размеромбазы данных (так как добавлен поиск по организму). Значит соотношение E-value в первом и во втором случае показывает содержание вирусных белков. Тогда содержание вирусных белков в базе данных - 5e-112/1e-110 = 0,05. Значит процент вирусов составляет примерно 5%.