Учебная страница курса биоинформатики,
год поступления 2010
Указания
Все домены и доменные архитектуры определяются в соответствии с БД Pfam.
Прочитайте указания до конца прежде чем начинать работу; это поможет вам сделать правильный выбор на первых шагах.
1. Выбор домена
Есть ряд ограничений на то, какой домен стоит выбрать для изучения.
Сначала проверьте подходит ли домен вашего белка. Если он не подходит, то попробуйте другие домены из доменных архитектур, содержащих домен вашего белка. Еще один вариант - выберите любой подходящий домен.
Необходимую для выбора домена информацию см. на сайте Pfam (со страницы домена ссылки Architectures, Species => Adjucent tab, Structures)
Рекомендуемые ограничения на домен
В домене - не более 10000 (десяти тысяч) последовательностей (чтобы JalView не тормозил)
- В домене - последовательности из не более чем 1200 видов (чтобы интерактивное дерево видов домена генерировалось на сайте Pfam; 1200 - пробовал, открывается; 2500 - пробовал, Pfam отказывается)
Домен входит, как минимум, в две разные доменные архитектуры, представленные, как минимум, несколькими десятками последовательностей (>20)
- Хотя бы для одной последовательности известна 3D структура белка (домена)
- Домен имеет широкую таксономическую нишу. В идеале, представлен в разных царствах.
Действия
Для выбранного домена
Скачайте выравнивание (full) из Pfam с помощью JalView (File => Fetch)
- Раскрасьте по консервативности (BLOSUM62, By conservation, подберите порог консервативности)
- Добавьте 3D структуру одного домена
- На сайте Pfam найдете соответствие между Uniprot ID и PDB кодами
Найдите в выравнивании нужный Uniprot ID (Select => find)
Свяжите последовательность с PDB кодом (мышь - на ID, правая кнопка => Structure => Associate structure with sequence)
Скачайте структуру (мышь - на ID, правая кнопка => Structure => View structure)
- Сохраните выравнивание как проект.
2. Выбор архитектур
Достаточно выбрать две архитектуры (если очень хочется, то можно больше ).
Рекомендуемые ограничения на архитектуру
- Рекомендую (но не настаиваю) выбирать простые доменные архитектуры - одно-двух-трех доменные.
- Должно быть не менее 20 последовательностей с данной архитектурой
- Таксоны высшего уровня (в идеале - царства) должны быть представлены более, чем 10 последовательностями
Рекомендуемые действия
- Получите таблицу с информацией об архитектуре всех последовательностей, содержащих выбранный домен:
- Файл swisspfam, содержащий эту информацию для всех последовательностей Uniprot, скачан на kodomo (/srv/databases/pfam/swisspfam.gz)
скрипт swisspfam_to_xls.py отбирает последовательности с указанным доменом и составляет таблицу для Excel (python swisspfam_to_xls.py -h для изучения списка параметров)
- Составьте список последовательностей с указанием доменной архитектуры. Используйте сводную таблицу в Excel: строки – последовательности, столбцы – домены Pfam.
- В список последовательностей добавьте колонку с информацией о таксономической принадлежности (царство, вид). Для этого
- Получите AC по идентификаторам отобранных последовательностей:
Uniprot => ID mapping
- Вводите список ID и выбираете
- From: UniprotKB AC/ID
- To: UniprotKB AC
- Получаете таблицу перекодировок mapping table и таблицу отказов not mapped
- (не обязательно, если достаточно опознанных AC) Как узнать почему отказ
- Uniprot , поиск по UniprotKB ненайденного ID
Если нашлось, то => History чтобы узнать что случилось с записью
- Скачайте полные записи всех последовательностей
Uniprot => Retrieve
- Вводите список AC и сохраняете flat text
- Получите таксономию
- Запустить скрипт
python uniprot_to_taxonomy.py -i <входной файл в формате Uniprot> -o <выходной файл>
python uniprot_to_taxonomy.py -h (для подсказки)
- Запустить скрипт
- Перенесите полученную таксономию в основную таблицу с помощью ВПР (vlookup)
- Получите AC по идентификаторам отобранных последовательностей:
- Добавьте колонку с длиной выбранного домена из каждой последовательности
3. Выбор таксонов
- Самый простой вариант - выбрать хорошо представленные таксоны высшего уровня (в идеале - царства). Впрочем, вся таксономическая информация хранится в таблице,и интересно отобразить несколько уровней. Главная трудность - как правильно закодировать таксономию чтобы ее можно было отобразить на листьях дерева
4. Выбор представителей архитектур
Действия
В основной таблице
- Добавьте колонку для отметки выбранных вами последовательностей
- Выберите по 20 (лучше - несколько более, чтобы было кого выкидывать потом) последовательностей из каждой архитектуры и отметьте их. Следите за тем, чтобы
- домены в выбранных последовательностях имели примерно одинаковую длину (так уменьшается риск взять фрагмент или неправильно выровненную последовательность);
- было хорошее представительство таксонов в выборке
- Добавьте к выборке последовательность с известной 3D структурой, даже если она не входит в нужные группы (пригодится для проверки выравнивания)
- Оставьте в выравнивании только нужные вам последовательности из двух групп.
Используйте скрипт filter_alignment.py (python filter_alignment.py -h для изучения списка параметров)
Откройте в JalView, проверьте , отредактируйте и разметьте полученное выравнивание
удалите пустые колонки (Edit => Remove Empty columns);
создайте группы, по одной на всех представителей архитектуры (выделить имена, курсор - на выделенные последовательности, правая кнопка => Selection => Group => Edit name and description)
задайте раскраску в каждой группе (Group => Color)
Отсортируйте по группам, при необходимости (Calculate => Sort)
- Добавьте разметку по вторичной структуре, исходя из последовательности с известной 3D
- ...
- Отредактируйте выравнивание:
- удалите явные фрагменты
- удалите те последовательности, которые выровнены явно неправильно
на месте спиралей и тяжей, составляющих ядро домена (см. 3D в соответствующем окне JalView) гэпы крайне маловероятны - уберите их, если есть
- удалите N-концевые и/или C-концевые участки в том случае, если в них, очевидно, нет хорошего выравнивания