Эволюционные домены. Занятие 9.


Задание 1.Выбрать домен.



Для реконструкции эволюции доменов был выбран домен Helicase_RecD. Домен удовлетворял всем перечисленным критериям.

AC ID функция домена доменые архетиктуры
PF05127 Helicase_RecD Домен, обладающий 5'-3' хеликазной активностью и ATPазной активностью 23 доменные архитектуры с 1317 последовательностями из 1199 видов.


Загруженное с помощью "JalView" (Fetch sequences) выравнивание из Pfam (File > Fetch Sequences по идентификатору PF05127) было раскрашено по консервативности ("ClustalX" и "By conservation" с порогом консервативности 25%). К последовательности TMCA_ECOLI была добавлена 3D структура (PDB ID 2ZPA).

Количество последовательностей было сокращено до 65 (как делалось в классе).

Выравнивание было сохранено, как проект JalView в файле Helicase_RecD.jar.


Задание 2.Выбрать архитектуры.



Используя скрипт swisspfam-to-xls.py и файл с kodomo (/srv/databases/pfam/swisspfam.gz), содержащий информацию об архитектуре всех последовательностей UniProt, была получена таблица с информацией об архитектуре последовательностей, содержащих домен Helicase_RecD, на основе которой в Excel была составлена сводная таблица, при обработке которой начала складываться следующая таблица (лист 2). На первом листе можно найти оставшийся после обработки кусочек сводной таблицы, однако, информация в нем полностью дублирована на листе 2.

Затем в таблицу были добавлены колонки с информацией о таксономической принадлежности.

Для этого по идентификаторам отобранных последовательностей в UniProt были получены AC (через ID Mapping, результат в приведенной таблице), по которым были получены полные записи последовательностей в виде flat text (UniProt => Retrieve).

Этот файл был использован для работы скрипта uniprot-to-taxonomy.py (python uniprot-to-taxonomy.py -i <входной файл в формате Uniprot> -o <выходной файл>).

Также был добавлен столбец, содержащий информацию о длине домена Helicase_RecD.

Еще раз приведу ссылку на полученную таблицу, где все данные собраны на 2 листе.

В итоге для работы были выбраны следующие доменные архитектуры, включающие домен Helicase_RecD:

23 доменные архитектуры
No домены число последовательностей описание других доменов
1 Helicase_RecD,br GNAT_acetyltr_2 69 GNAT_acetyltr_2. Домен обладает N-ацетилтрансферазной активностью и имеет схожую структуру с GCN5 N-acetyltransferase (GNAT)
2 Helicase_RecD,
GNAT_acetyltr_2,
tRNA_bind_2,
и автоматически сгенерированный ADDA домен PB001870
78 GNAT_acetyltr_2. Домен обладает N-ацетилтрансферазной активностью и имеет схожую структуру с GCN5 N-acetyltransferase (GNAT).
tRNA_bind_2. Домен обнаружен на C-конце tRNA(Met) cytidine acetyltransferase предположительно участвует в связывании тРНК.
PB001870. Домен был предсказан автоматически программой ADDA, обнаружен в 214 последовательностях.


Задание 3. Выбор таксона.

В отборе таксона участвовало 58 и 57 последовательностей первой и второй архитектур соответственно, что практически полностью отображает все последовательности данных доменных архитектур в pfam.
Тем не менее, оказалось, что все последовательности второй доменной архитектуры относятся к одной и той же таксономической группе (холерный вибрион, род vibrio). То есть для 2 архитектуры не удалось выделить критерия для разделения последовательностей по таксону, по крайней мере по результатам работы скрипта.

Последовательности первой доменой архитектуры вели себя гораздо лучше, и оказались в большинстве Гаммапротеобактериями, поэтому были отвергнуты последовательности эукариот и архей, после чего остались только протеобактерии.
Гаммапротеобактерии тоже делились несимметрично до семейств, которые, наконец-то, можно было разделить в соответствии с требованием задания - более 10 последовательностей в родах Actinobacillus и Aggregatibacter плюс 7 последовательностей в роде Haemophilus.

Итого получается, что к дальнейшей работе были допущены последовательности таксона Gammaproteobacteria, все представители которого являются грамм-отрицательными. Среди них всетречаются многие хорошо известные виды, например E.Coli, или патогенные виды, в частности холерный вибрион и многие другие.


Задание 4. Выбор представителей архитектур.



Из каждой архитектуры были отобраны последовательности (37 и 57 для первой и второй архитектур соответственно).

Представленные на листе "отобранные" книги Excel результаты выбора последовательностей (они также отмечены черным шрифтом на основной таблице) были использованы для того, чтобы оставить в выравнивании нужные последовательности из двух групп (был использован скрипт filter-alignment.py).
python filter-alignment.py -i sequences_9.fa -m ID_9.txt -o ally_9.fasta


При этом к выборке была добавлена последовательность TMCA_ECOLI с известной 3D структурой (PDB ID 2ZPA), по которой затем планировалось добавить разметку в проекте JalView (как делали на контрольной - это просто), но этого не удалось сделать, так как на ПК испытывались серьезные проблемы с синхронизацией ссылок на сетевые ресурсы программы (в свое оправдание добавлю, что данная проблема не такая уж редкая для многих пользователей, как я узнал, пытаясь ее решить).

Были созданы 2 группы для двух- и четырехдоменных архитектур, для раскраски были подобраны пороги 60 и 30% консервативности, при которых наглядно видны различия в группах (при раскраске по 60% это различие еще более заметно, но в таком случае в одной из групп преобладает белый цвет, а это не очень хорошо, поэтому для нее порог был снижен).

Были удалены некоторые последовательности (фрагменты) и удалены пустые столбцы файл_проекта.

В качестве обоснования правильности выравнивания, пожалуй, достаточно просто привести его (Рис. 1), так как оно очень консервативно в данном домене для данных бактерий.
Также заметно наглядное разделение по группам, что вызвано следующими причинами: организмы группы 2 принадлежат к более близкому таксону, их доменная архитектура согласно pfam содержит меньше неконсервативных участков, домены более полные, чем в первой группе.

no picture here Рис. 1









На страницу 4 семестра


© Aleshin Vasily