Практикум 11

Посвятим немного времени базе данных Protein Families (Pfam): опишем одно из семейств и изучим отвечающее ему множественное выравнивание.

Описание семейства
AC ID Архитектур seed full
PF00998 RdRP_3 14 32 221
Таблица 1. Формальная информация о семействе.

Домен RdRP_3 является РНК-зависимой РНК-полимеразой (если, конечно, так корректно говорить в отношении не целого белка, а его части). Такой фермент необходим для репликации генома всем РНК-вирусам, относящимся к 3, 4 и 5 группам классификации Балтимора: с геномом, представленным двухцепочечной РНК, одноцепочечной (+)РНК и одноцепочечной (-)РНК соответственно (заметим, что только у них он и встречается). В среднем геном РНК-вирусов на порядок, а то и на два порядка меньше, чем у их ДНК-собратьев, что ярко отражено в доменных архитектурах, включающих RdRP3: ввиду тенденции к компактизации генома почти все они являют собой полипротеины.

Рис. 1. Почему на картинке приведён не отдельный участнок, а целый белок? Потому что эта РНК-зависимая РНК-полимераза является, по сути, доменом полипротеина!
Рис. 2. Одна из архитектур, включающих объект нашего пристального внимания RdRP_3 - полипротеин вируса гепатита C. Зелёным цветом на C-конце и отмечен наш домен.
Разбираемся с seed-выравниванием

Аннотации к блокам с наиболее высоким сходством приведены в таблице 2. Практически на каждом из приведённых в таблице участков большее сходство наблюдается примерно для одного и того же подмножества последовательностей, в Jalview-проекте оно является верхней половиной выравнивания.

Координаты Аннотация
1 35-52 Включает в себя несколько 1-2-а/к консервативных участков, в том числе абсолютно консервативный столбец с аргининами
2 116-190 Этот блок возможно выделить примерно у половины последовательностей в seed, однако отдельные позиции консервативны и для всех
3 227-260 Также хорошо выражен только для одной половины seed'а, также есть позиции, консервативные и для всех, но их больше. В т. ч. есть абсолютно консервативная пара FD (244-245)
4 271-292 Несколько консервативных для большинства участников seed'a позиций
5 300-319 Участок с высокой плотностью консервативных позиций, можно считать самым достоверным блоком для частного подмножества последовательностей выравниания -
6 337-349 Содержит самый длинный абсолютно консервативный блок - GDD (341-343). Может быть, каталитическая триада? Можно считать самым достоверным блоком для всего выравнивания
7 378-396 Заеметное сходство вновь установимо лишь для половины последовательностей, однако присутствует и абсолютно консервативная позиция - C (391).
8 514-532 Есть 3 позиции, консервативные почти для всех участников seed'а, большая часть остального сходства приходится вновь лишь на половину последовательностей.
Таблица 2. Аннотация блоков множественного выравнивания, положенного в основу PF00998. Важное замечание: везде, где упоминается некая половина последовательностей, имеется в виду всё время одна и та же половина!

Самым неинформативным для всего выравнивания можно считать участок 462-513. На его протяжении не только почти не встречается консервативных позиций, но и располагается много гэпов. Соответственно, в противоположность участкам из таблицы 2, этот блок не несёт информации о гомологии.

Таким образом, наибольшее количество информации о гомологии нам предоставляют блоки, представленные в таблице 2, а участок 462-513 в этом отношении практически лишён смысла.

Чем бы красиво завершить повествование?

Рис. 3. Жизненный цикл дцРНК-вируса из книги Brock Biology of microorganisms.