Для 7 практикума я выбрала белок flavohemoprotein у своей бактерии Cupriavidus cauae, но он является плохо изученным и не содержится в SwissProt. Поэтому, я решила найти ее родственника, у которого он тоже есть. Сейчас моя работа будет построена на исследовании белка flavohemoprotein у Cupriavidus necator (ID: HMP_CUPNH AC: P39662).
В веб-программу BLAST я внесла данные о аминокислотной последовательности, а так же настроила поиск по банку SwissProt. Не ограничивала по организму. Чтобы найти максимальное число реузльтатов, выставила размер выдачи на 5000. Порог E-Value (0.05), длину слов (5), параметры выравнивания (BLOSUM62, Existence: 11 Extension: 1, Conditional compositional score matrix adjustment) не меняла.
В результате нашлось 149 последовательностей.
Я взяла 6 белков (включая исследуемый)(HMP_CUPNH HMP_RHIME HMP_CHRVO HMP_HALH5 HMP_BORPE HMP_BACC1) и построила выравнивание.
Можно сказать, что все белки являются гомологичными. У них достаточно много консервативных участков (к примеру на позициях 5-7, 14-21, 57-62, 210-216 итд) и по длине они почти все равны (кроме белка из Halalkalibacterium halodurans, который длиннее остальных).
Для этого задания я выбрала полипротеин вируса New York virus (NYV), а точнее первую его зрелую часть - Glycoprotein N [18:652].
ID: GP_NYV AC: Q83887 Name: New York virus (NYV)
При запускании BLAST с теми же параметрами, что и в первом задании, нашлось 18 последовательностей, каждая из которых имела E-Value 0.0 (машинный ноль), то есть совпадения были очень хорошими.
Выравнивание получилось очень прекрасным, хорошо отражающим гомологию, много больших консервативных участков или участков с синонимичными заменами, но есть достаточно длинные индели.
Как было сказано ранее, E-Value всех находок для выбранного мною организма был 0.0. Из-за этого я взяла другой объект - Prospect Hill virus (PHV). Для него я взяла вторую зрелую часть - Glycoprotein C [655:1142].
При запросе без указания типа организма, нашлось 22 последовательности, 4 из которых имеют E-Value отличный от 0.0. С указанием организма - те же 22 последовательности, но уже E-Value у этих четырех, которые изначально были не 0.0, понизился примерно на порядок.
Я взяла вирус, у котого E-Value сначала был 0.004, а потом 2e-04. Посчитав отношение получается, что доля вирусов примерно 0,05 (5%).