Учебная страница курса биоинформатики,
год поступления 2012
Указания
Все домены и доменные архитектуры определяются в соответствии с БД Pfam.
Прочитайте указания до конца, прежде чем начинать работу: есть ряд ограничений на то, какое семейство доменов стоит выбрать для изучения.
1. Выбор семейства доменов
Варианты выбора:
- Домен из белка секреторной системы из практикума 7.
- Один из доменов вашего белка с первого курса.
- Другие семейства доменов из доменных архитектур, содержащих домен вашего белка.
- Любой подходящий домен.
Рекомендуемые ограничения на домен
В семействе Pfam не более 10000 (десяти тысяч) последовательностей (чтобы JalView не тормозил).
- В семействе Pfam представлены последовательности из не более чем 1200 видов (чтобы интерактивное дерево видов генерировалось на сайте Pfam; 1200 – пробовал, открывается; 2500 – пробовал, Pfam отказывается).
Домены семейства входят как минимум в две разные доменные архитектуры, представленные как минимум парой десятков последовательностей (>20) каждая.
- Желательно: хотя бы для одной последовательности известна 3D структура белка (домена).
Необходимую для выбора домена информацию см. на сайте Pfam (со страницы домена ссылки Domain organisation, Species → Tree, Structures).
Действия
Запустите JalView. Для выбранного семейства доменов:
Скачайте выравнивание из Pfam (Full): в JalView: File → Fetch Sequences, выбираете БД, указываете AC семейства.
- Раскрасьте по консервативности (ClustalX или BLOSUM62, By conservation, подберите порог консервативности).
- (*)Добавьте 3D структуру одного домена, если таковая имеется:
- на сайте Pfam найдите соответствие между Uniprot ID и PDB кодами;
найдите в выравнивании нужный Uniprot ID (Select → find);
свяжите последовательность с PDB кодом (щёлкнуть правой кнопкой мыши по ID, выбрать Structure → Associate structure with sequence → Enter PDB Id);
- скачайте структуру (View structure в том же меню).
- Сохраните выравнивание как проект (jar) и в fasta-формате.
2. Выбор архитектур
Достаточно выбрать две-три архитектуры.
Рекомендуемые ограничения на архитектуру
- Рекомендуем (но не настаиваем) выбирать простые доменные архитектуры - одно-двух-трех доменные.
- Должно быть не менее 20 последовательностей с данной архитектурой
Рекомендуемые действия
- Получите таблицу с информацией об архитектуре всех последовательностей, содержащих выбранный домен:
Файл swisspfam, содержащий эту информацию для всех последовательностей Uniprot, скачан на kodomo (/srv/databases/pfam/swisspfam.gz)
скрипт swisspfam_to_xls.py отбирает последовательности с указанным доменом и составляет таблицу для Excel (python swisspfam_to_xls.py -h для изучения списка параметров)
Составьте список последовательностей с указанием доменной архитектуры. Используйте сводную таблицу в Excel: строки – AC последовательностей, столбцы – домены Pfam.
- В список последовательностей добавьте колонки с информацией о таксономической принадлежности. Для этого:
- Скачайте полные записи всех последовательностей:
Uniprot → Retrieve;
вводите список AC → Retrieve; сохраняете flat text .
- Получите таксономию:
- Запустите скрипт
python uniprot_to_taxonomy.py -i <входной файл в формате Uniprot> -o <выходной файл>
python uniprot_to_taxonomy.py -h (для подсказки)
- Запустите скрипт
- Перенесите полученную таксономию в основную таблицу с помощью ВПР (VLOOKUP).
- Добавьте колонку с длиной выбранного домена из каждой последовательности.
3. Выбор таксона и подтаксонов
- Нужно выбрать один таксон и два (можно три) его подтаксона следующего уровня.
Подтаксоны должны быть достаточно представлены последовательностями c выбранными архитектурами (не менее 5 последовательностей с каждой из архитектур в каждом из подтаксонов; если такие подтаксоны и архитектуры подобрать не получается, выберите другое семейство доменов). Рекомендуется в качестве таксона выбрать царство (Archaea, Bacteria, Eukaryota). Другой хороший вариант: взять в качестве таксона все "cellular organisms", а два или все три царства – как подтаксоны. Следует придумать буквенные коды (X,Y,...) для выбранных подтаксонов, чтобы отображать их на листьях дерева.
4. Выбор представителей архитектур
Действия
В основной таблице (всех представителей семейства доменов):
- Добавьте колонку для отметки выбранных вами последовательностей.
- Выберите по 20 (лучше несколько более, чтобы было кого выкидывать потом) последовательностей из каждой выбранной архитектуры и отметьте их. Следите за тем, чтобы:
- домены в выбранных последовательностях имели примерно одинаковую длину (так уменьшается риск взять фрагмент или неправильно выровненную последовательность);
- было хорошее представительство подтаксонов в выборке.
- (*) Добавьте к выборке последовательность с известной 3D структурой, даже если она не входит в нужные группы (пригодится для проверки выравнивания).
В выравнивании:
- Оставьте только отобранные вами последовательности из всех выбранных архитектур.
Используйте скрипт filter_alignment.py (Запустите сначала python filter_alignment.py -h для изучения списка параметров)
Откройте "профильтрованное" выравнвание в JalView, проверьте, отредактируйте и разметьте полученное выравнивание:
удалите пустые колонки (Edit → Remove Empty columns);
создайте группы, по одной на каждую архитектуру (выделить имена, правой кнопкой мыши по выделенным последовательностям → Selection → Group → Edit name and description)
задайте раскраску в каждой группе (Group → Color → ClustalX или BLOSUM62; затем Group → Color → By conservation и подберите порог)
При необходимости, отсортируйте по группам: Calculate → Sort
- (*) Добавьте разметку по вторичной структуре, исходя из последовательности с известной 3D структурой
- удалите явные фрагменты
- удалите те последовательности, которые выровнены явно неправильно
(*) на месте спиралей и тяжей, составляющих ядро домена (см. 3D в соответствующем окне JalView) гэпы крайне маловероятны – уберите их, если есть
- удалите N- и C-концевые участки в том случае, если в них очевидно нет хорошего выравнивания.
- Сохраните как проект (под другим именем, нежели выравнивание всего семейства).