Семейство доменов
Для задания я выбрала семейство SeqA.
Summary name: SeqA protein C-terminal domain
ID:SeqA
AC:PF03925
Seed:30
Full:357
Architectures:4
Этот белок является ингибитором при инициации ДНК, также он участвует в регуляции транскрипции. Домен преобладает у бактерий, хотя иногда встречается и у эукариот. Состоит преимущественно из альфа-спиралей.
Выравнивание seed
В выравнивании можно выделить 3 максимальных достоверных блока: 22-37, 48-53, 87-97. В блоке 22-37 совпадают только первые, пятые и последние аминокислоты, они представлены фенилаланином, лейцином и еще раз фенилаланином соответственно. Остальные позиции имеют идентичность 86% и меньше. В блоке 48-53 совпадают первая, 4-ая и последняя позиции. Это, соответственно, глицин, аргенин и тирозин. На остальныз позициях процент индентичности меньше 83%. И, наконец, блок 87-97 содержит в себе 4 полностью совпадающие аминокислоты: первая (триптофан), вторая (валин), пятая (аспарагин) и последняя (лизин) позиции. Также есть 2 позиции с процентом индентичность 96% (то есть аминокислота одинакова у всех, кроме одной последовательности), у остальных совпадения 80% и меньше.
максимальный достоверный блок - 22-37.
Блок с 68 по 75 позиции нельзя назвать достоверным, так как у 28 из 30 последовательностей он полностью представлен гэпами
Множественное выравнивание
Для выравнивания я использовала первые 99 последовательностей из первой архитектуры (такое число вышло из-за того, что программа отказывалась находить последовательности превышающие это число) и 14 последовательностей из второй. Для того, чтобы выделить ID белков, я создала файл, содержащий в себе имена и описание последовательностей. Я использовала этот файл для кода на питоне.
По итогу, я получила выравнивание. В первой архитектуре можно выделить несколько достоверных блоков - 49-71, 80-88, 240-248 и 259-281. Во второй архитектуре нельзя выделить достоверный блок. Сильнее всего из 14 последовательностей выделяется A0A4Z0L2Q8_SALET, так как у остальных последовательностей есть схожие фрагменты, но у A0A4Z0L2Q8_SALET таковых нет.