Учебная страница курса биоинформатики,
год поступления 2022
Указания
Pfam методы
Страница |
Ссылка |
Что там |
Main Pfam |
Jump to |
ввести AC, ID pfam, AC, ID белка Uniprot, PDB code |
Family site |
alignments |
можно скачать выравнивания семейств, т.е. гомологичных фрагментов из разных белков. Можно скачать полные последовательности белков только из выборки full |
Family site |
architectures |
Список архитектур белков из семейства с указанием числа белков с каждой архитектурой условные обозначения в графике архитектуры |
Family site |
species |
Таксономия в виде круга. При выделении таксона сообщается о числе видов и последовательностей. Еcли перейти на Tree и выделить таксон, то можно скачать последовательности семейства для этого таксона. Семейства - значит скачиваются фрагменты, а не полные последовательности белков. Скачиваются не выровненные. Для больших семейств не получается - сервер не тянет. |
1. Выберите семейство доменов из Pfam для работы
Я скачал из Pfam список всех семейств с информацией полезной для выбора семейства
Если знаете какие-нибудь интересные белки, то можете поискать в Pfam legacy по ключевым словам или AC записи Uniprot (Jump to).
На странице домена проверьте размеры выборок seed и full (по ссылке alignment), доменные архитектуры
2. Опишите семейство доменов
- Что включить в описание указано в задании. Формальные данные про семейство есть в таблице, из которой вы выбирали семейство.
Зайдите на страницу выбранного семейства в Pfam через Jamp to. На странице семейства есть ссылки на описания семейства в других БД и на литературу.
Используйте ссылки architectures и species
3. Опишите выравнивание seed с точки зрения гомологичности всех последовательностей или их подмножества
Терминология
Блок определяется подмножеством последовательностей и участком от позиции S (start) до позиции E (end) выравнивания. Если подмножество содержит K последовательностей соберем их в выравнивании сверху. Блок задаётся так (последовательности с 1-й по K-ю; позиции от S-той до E-той)
Блок без гэпов это блок, в выравнивании которого нет НИ ОДНОГО гэпа
Уточнение Колонки блока в которых нет ни одной буквы - только символы гэпа - не в счёт!
В полном выравнивании их не может быть (за бессмысленностью).
В блоке содержащем не все последовательности, они могут появиться.
Проверка.
- Выделите блок мышью
Правая кнопка мыши Selection => Output to text box => fasta => new window (предыдущее окно можно закрыть)
Меню Edit => remove empty columns.
Блок достоверный, т.е. можно считать, что выравнивание в нем соответствует эволюционному, если
- он без гэпов
- первая позиция блока консервативна или функционально консервативна в блоке (а не во всем выравнивании)
- то же условие на последнюю позицию блока
Чем больше консервативных позиций в блоке, и чем чаще они идут в блоке, тем достоверность блока выше.
Достоверный блок максимален если
- нельзя добавить последовательность к блоку так, чтобы не уменьшить его достоверность
- нельзя расширить его с N или C конца так, чтобы не уменьшить его достоверность
JalView методы
У нас в Jalview открыто выравнивание. Как
перемещать последовательности вверх/вниз |
выделить их и двигать стрелками вверх или вниз |
Разбить последовательности на подмножества |
выделить несколько соседних колонок, можно не подряд; select => make groups for selection; calculate => sort = by groups |
Покрасить подмножество последовательностей |
выделить его; правой кнопкой selection; create group; повторить и выбрать edit group => Color |
Подмножество сохранить в отдельном окне |
выделить его; правой кнопкой selection; output to text box => fasta; new window (предыдущее можно закрыть) |
Перевыровнять последовательности в окне |
edit => remove all gaps; web service => alignment, выбрать программу. Mafft - самый быстрый сервис, другие имеют свои преимущества |
Этапы
1) Скачайте выравнивание seed со страницы семейства в Pfam. Следите, чтобы в файле расширение было таким, чтобы Jalview открывал файл по щелчку (.fasta а не .txt)
2) Откройте выравнивание в Jalview. Поиграйте с раскраской разными способами.
Первый выбор Color => Clustal. В этой раскраске сходные по свойствам а.к. красятся в один цвет
Важная возможность Color => Above identity threshold (и modify identity threshold)
- Сначала установите порог identity равным 100%. Увидите абсолютно консервативные позиции (одна и та же а.к. у всех последовательностей), если они есть
- Снижайте порог и наблюдайте.
3) Опишите максимальные достоверные блоки, включающие все последовательности - если таковые имеются.
4) Опишите один максимальный достоверный блок, включающий не все последовательности. Если есть другие максимальные блоки с тем же подмножеством последовательностей, то опишите их.
5) Опишите один участок выравнивания, в котором нет никаких достоверных подблоков, и потому маловероятно, что выравнивание на этом участке отражает ход эволюции.
6) Если на предыдущий вопрос не нашлось примера, то приведите пример блока, не содержащего все последовательности, в котором маловероятно, что выравнивание отражает ход эволюции.
7) сделайте вывод о выравнивании в отношении того насколько и в каких частях оно отражает гомологию последовательностей.
4. Верно ли, что домены, входящие в состав белков с разной доменной архитектурой достоверно различаются?
Этапы
- Составить список белков с первой доменной архитектурой и со второй доменной архитектурой. Варианты как это сделать такие.
- Есть программный доступ, но я им не пользовался, значит, не могу объяснить.
- Некрасивый. На странице architecture на сайте Pfam открыть (show) список последовательностей с рисунками, скопировать его и вставить в текстовый файл.
- Более технологичный, но и более долгий. Скачать из Uniprot таблицу с белками с нужным доменом, содержащую сведения обо всех доменах Pfam в белке.
Uniprot => search advanced.
Поле для поиска в окне выбираете cross-reference далее family and domain databases далее Pfam вводите AC своего домена => Search
Выбираете колонки для сохранения таблицы. Обязательно Entry (AC), Entry name (ID), External resources => Family and domain: Pfam. Можно добавить sequence length. Из сохраненной таблицы получаете списки белков с нужной архитектурой.
- Получить выравнивание доменов, в котором белки с 1й доменной архитектурой расположены сверху, а со 2й -снизу
- Пишете скрипт (или руками, если мало последовательностей), чтобы вставить 1 перед именами последовательностей с 1й архитектурой, и 2 - перед именами последовательностей со 2й архитектурой
- Открываете в Jalview и сортируете последовательности по ID. Вот и готово:)
- Ищете достоверные блоки для подмножеств белков с 1й и 2й архитектурой.
- Описываете что получилось: разделились или нет
В ответе - выравнивание, содержащее обе подгруппы и координаты достоверных блоков, если нашлись.
Рекомендуемое число последовательностей в выравнивании для анализа - в пределах пары сотен. Чтобы была возможность просмотреть всё выравнивание. Но не менее пары 1 - 2 десятков. Соответственно, выбирайте seed или full.
Одна из возможностей уменьшить число последовательностей в выравнивании - из почти совпадающих (идентичность больше порога, например, 90%) оставить одну: Edit => Remove redundancy
Всё делать в Jalview. Нужны знания возможностей Jalview и острый взгляд:).
Главная кнопка в Jalview Esc или Ctrl A. Эффект один - выделенным множеством становятся все последовательности. Иначе у вас может случайно оказаться выделенной одна последовательность, а многие команды относятся только к выделенному множеству.
На лекции будет демонстрация как выполнять это задание.
Выделите небольшой участок (2 или немножко больше колонок) выравнивания с почти, но не совсем консервативными колонками. Select => Make groups for selection. Если появились достаточно крупные группы - Calculate => Sort => by GRoup. Став курсором на группу, правой кнопкой, selection => Edit group => Group color и выбираете вид раскраски. и смотрите, что консервативно в Этой группе, и не встречается в остальных. Это и есть различие.
Группы можно переопределить самому, если надо. Соберите нужные последовательности рядом. Перемещение - стрелочками. Выделите последовательности и создайте из них группу открыв selection правой кнопкой мыши.
условные обозначения в графических обозначениях доменов