Учебная страница курса биоинформатики,
год поступления 2011
Указания
Все домены и доменные архитектуры определяются в соответствии с БД Pfam.
Прочитайте указания до конца прежде чем начинать работу: есть ряд ограничений на то, какой домен стоит выбрать для изучения.
1. Выбор домена
Варианты выбора.
- Белок секреторной системы из практикума 7
- Один из доменов вашего белка с 1го курса.
- Другие домены из доменных архитектур, содержащих домен вашего белка.
- Любой подходящий домен.
Рекомендуемые ограничения на домен
В домене - не более 10000 (десяти тысяч) последовательностей (чтобы JalView не тормозил)
- В домене - последовательности из не более чем 1200 видов (чтобы интерактивное дерево видов домена генерировалось на сайте Pfam; 1200 - пробовал, открывается; 2500 - пробовал, Pfam отказывается)
Домен входит, как минимум, в две разные доменные архитектуры, представленные, как минимум, несколькими десятками последовательностей (>20)
- Желательно: хотя бы для одной последовательности известна 3D структура белка (домена)
- Можно выбрать таксон и из нескольких подтаксонов (минимум - два), в которых представлены все выбранные архитектуры.
Необходимую для выбора домена информацию см. на сайте Pfam (со страницы домена ссылки Architectures, Species => Adjucent tab, Structures)
Действия
Для выбранного домена
Скачайте выравнивание (full) из Pfam с помощью JalView (File => Fetch)
- Раскрасьте по консервативности (ClustalX или BLOSUM62, By conservation, подберите порог консервативности)
- (*)Добавьте 3D структуру одного домена, если таковая имеется
- На сайте Pfam найдете соответствие между Uniprot ID и PDB кодами
Найдите в выравнивании нужный Uniprot ID (Select => find)
Свяжите последовательность с PDB кодом (мышь - на ID, правая кнопка => Structure => Associate structure with sequence)
Скачайте структуру (мышь - на ID, правая кнопка => Structure => View structure)
- Сохраните выравнивание как проект.
2. Выбор архитектур
Достаточно выбрать две-три архитектуры.
Рекомендуемые ограничения на архитектуру
- Рекомендую (но не настаиваю) выбирать простые доменные архитектуры - одно-двух-трех доменные.
- Должно быть не менее 20 последовательностей с данной архитектурой
- Выбранные подтаксоны должны быть иметь достаточно представителей: более, чем 10 последовательностей хотя бы для двух подтаксонов
Рекомендуемые действия
- Получите таблицу с информацией об архитектуре всех последовательностей, содержащих выбранный домен:
- Файл swisspfam, содержащий эту информацию для всех последовательностей Uniprot, скачан на kodomo (/srv/databases/pfam/swisspfam.gz)
скрипт swisspfam_to_xls.py отбирает последовательности с указанным доменом и составляет таблицу для Excel (python swisspfam_to_xls.py -h для изучения списка параметров)
- Составьте список последовательностей с указанием доменной архитектуры. Используйте сводную таблицу в Excel: строки – последовательности, столбцы – домены Pfam.
- В список последовательностей добавьте колонки с информацией о таксономической принадлежности. Для этого
- Получите AC по идентификаторам отобранных последовательностей:
Uniprot => ID mapping
- Вводите список ID и выбираете
- From: UniprotKB AC/ID
- To: UniprotKB AC
- Получаете таблицу перекодировок mapping table и таблицу отказов not mapped
- (не обязательно, если достаточно опознанных AC) Как узнать почему отказ
- Uniprot , поиск по UniprotKB не найденного ID
Если нашлось, то => History чтобы узнать что случилось с записью
- Скачайте полные записи всех последовательностей
Uniprot => Retrieve
- Вводите список AC и сохраняете flat text
- Получите таксономию
- Запустить скрипт
python uniprot_to_taxonomy.py -i <входной файл в формате Uniprot> -o <выходной файл>
python uniprot_to_taxonomy.py -h (для подсказки)
- Запустить скрипт
- Перенесите полученную таксономию в основную таблицу с помощью ВПР (vlookup)
- Получите AC по идентификаторам отобранных последовательностей:
- Добавьте колонку с длиной выбранного домена из каждой последовательности
3. Выбор таксона
- Самый простой вариант - выбрать таксон, в котором подтаксоны следующего уровня достаточно представлены последовательностями. Впрочем, вся таксономическая информация хранится в таблице,и интересно отобразить несколько уровней. Следует закодировать выбранные подтаксоны для того, чтобы отображать их на листьях дерева.
4. Выбор представителей архитектур
Действия
В основной таблице
- Добавьте колонку для отметки выбранных вами последовательностей
- Выберите по 20 (лучше - несколько более, чтобы было кого выкидывать потом) последовательностей из каждой архитектуры и отметьте их. Следите за тем, чтобы
- домены в выбранных последовательностях имели примерно одинаковую длину (так уменьшается риск взять фрагмент или неправильно выровненную последовательность);
- было хорошее представительство таксонов в выборке
- (*) Добавьте к выборке последовательность с известной 3D структурой, даже если она не входит в нужные группы (пригодится для проверки выравнивания)
- Оставьте в выравнивании только нужные вам последовательности из двух групп.
Используйте скрипт filter_alignment.py (python filter_alignment.py -h для изучения списка параметров)
Откройте в JalView, проверьте , отредактируйте и разметьте полученное выравнивание
удалите пустые колонки (Edit => Remove Empty columns);
создайте группы, по одной на всех представителей архитектуры (выделить имена, курсор - на выделенные последовательности, правая кнопка => Selection => Group => Edit name and description)
задайте раскраску в каждой группе (Group => Color => ClustalX или BLOSUM62; затем Group => Color => By conservation и подберите порог)
При необходимости, отсортируйте по группам, (Calculate => Sort)
- (*) Добавьте разметку по вторичной структуре, исходя из последовательности с известной 3D
- ...
- Отредактируйте выравнивание:
- удалите явные фрагменты
- удалите те последовательности, которые выровнены явно неправильно
(*) на месте спиралей и тяжей, составляющих ядро домена (см. 3D в соответствующем окне JalView) гэпы крайне маловероятны - уберите их, если есть
- удалите N-концевые и/или C-концевые участки в том случае, если в них, очевидно, нет хорошего выравнивания