Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2022

Указания

Pfam методы

Страница

Ссылка

Что там

Main Pfam

Jump to

ввести AC, ID pfam, AC, ID белка Uniprot, PDB code

Family site

alignments

можно скачать выравнивания семейств, т.е. гомологичных фрагментов из разных белков. Можно скачать полные последовательности белков только из выборки full

Family site

architectures

Список архитектур белков из семейства с указанием числа белков с каждой архитектурой условные обозначения в графике архитектуры

Family site

species

Таксономия в виде круга. При выделении таксона сообщается о числе видов и последовательностей. Еcли перейти на Tree и выделить таксон, то можно скачать последовательности семейства для этого таксона. Семейства - значит скачиваются фрагменты, а не полные последовательности белков. Скачиваются не выровненные. Для больших семейств не получается - сервер не тянет.

1. Выберите семейство доменов из Pfam для работы

Я скачал из Pfam список всех семейств с информацией полезной для выбора семейства

Если знаете какие-нибудь интересные белки, то можете поискать в Pfam legacy по ключевым словам или AC записи Uniprot (Jump to).

На странице домена проверьте размеры выборок seed и full (по ссылке alignment), доменные архитектуры

2. Опишите семейство доменов

  1. Что включить в описание указано в задании. Формальные данные про семейство есть в таблице, из которой вы выбирали семейство.
  2. Зайдите на страницу выбранного семейства в Pfam через Jamp to. На странице семейства есть ссылки на описания семейства в других БД и на литературу.

  3. Используйте ссылки architectures и species

3. Опишите выравнивание seed с точки зрения гомологичности всех последовательностей или их подмножества

Терминология

Блок определяется подмножеством последовательностей и участком от позиции S (start) до позиции E (end) выравнивания. Если подмножество содержит K последовательностей соберем их в выравнивании сверху. Блок задаётся так (последовательности с 1-й по K-ю; позиции от S-той до E-той)

Блок без гэпов это блок, в выравнивании которого нет НИ ОДНОГО гэпа

Уточнение Колонки блока в которых нет ни одной буквы - только символы гэпа - не в счёт!

В полном выравнивании их не может быть (за бессмысленностью).

В блоке содержащем не все последовательности, они могут появиться.

Проверка.

  1. Выделите блок мышью
  2. Правая кнопка мыши Selection => Output to text box => fasta => new window (предыдущее окно можно закрыть)

  3. Меню Edit => remove empty columns.

Блок достоверный, т.е. можно считать, что выравнивание в нем соответствует эволюционному, если

  1. он без гэпов
  2. первая позиция блока консервативна или функционально консервативна в блоке (а не во всем выравнивании)
  3. то же условие на последнюю позицию блока

Чем больше консервативных позиций в блоке, и чем чаще они идут в блоке, тем достоверность блока выше.

Достоверный блок максимален если

  1. нельзя добавить последовательность к блоку так, чтобы не уменьшить его достоверность
  2. нельзя расширить его с N или C конца так, чтобы не уменьшить его достоверность

JalView методы

У нас в Jalview открыто выравнивание. Как

перемещать последовательности вверх/вниз

выделить их и двигать стрелками вверх или вниз

Разбить последовательности на подмножества

выделить несколько соседних колонок, можно не подряд; select => make groups for selection; calculate => sort = by groups

Покрасить подмножество последовательностей

выделить его; правой кнопкой selection; create group; повторить и выбрать edit group => Color

Подмножество сохранить в отдельном окне

выделить его; правой кнопкой selection; output to text box => fasta; new window (предыдущее можно закрыть)

Перевыровнять последовательности в окне

edit => remove all gaps; web service => alignment, выбрать программу. Mafft - самый быстрый сервис, другие имеют свои преимущества

Этапы

1) Скачайте выравнивание seed со страницы семейства в Pfam. Следите, чтобы в файле расширение было таким, чтобы Jalview открывал файл по щелчку (.fasta а не .txt)

2) Откройте выравнивание в Jalview. Поиграйте с раскраской разными способами.

3) Опишите максимальные достоверные блоки, включающие все последовательности - если таковые имеются.

4) Опишите один максимальный достоверный блок, включающий не все последовательности. Если есть другие максимальные блоки с тем же подмножеством последовательностей, то опишите их.

5) Опишите один участок выравнивания, в котором нет никаких достоверных подблоков, и потому маловероятно, что выравнивание на этом участке отражает ход эволюции.

6) Если на предыдущий вопрос не нашлось примера, то приведите пример блока, не содержащего все последовательности, в котором маловероятно, что выравнивание отражает ход эволюции.

7) сделайте вывод о выравнивании в отношении того насколько и в каких частях оно отражает гомологию последовательностей.

4. Верно ли, что домены, входящие в состав белков с разной доменной архитектурой достоверно различаются?

Этапы

  1. Составить список белков с первой доменной архитектурой и со второй доменной архитектурой. Варианты как это сделать такие.
    1. Есть программный доступ, но я им не пользовался, значит, не могу объяснить.
    2. Некрасивый. На странице architecture на сайте Pfam открыть (show) список последовательностей с рисунками, скопировать его и вставить в текстовый файл.
    3. Более технологичный, но и более долгий. Скачать из Uniprot таблицу с белками с нужным доменом, содержащую сведения обо всех доменах Pfam в белке.
      • Uniprot => search advanced.

      • Поле для поиска в окне выбираете cross-reference далее family and domain databases далее Pfam вводите AC своего домена => Search

      • Выбираете колонки для сохранения таблицы. Обязательно Entry (AC), Entry name (ID), External resources => Family and domain: Pfam. Можно добавить sequence length. Из сохраненной таблицы получаете списки белков с нужной архитектурой.

  2. Получить выравнивание доменов, в котором белки с 1й доменной архитектурой расположены сверху, а со 2й -снизу
    1. Пишете скрипт (или руками, если мало последовательностей), чтобы вставить 1 перед именами последовательностей с 1й архитектурой, и 2 - перед именами последовательностей со 2й архитектурой
    2. Открываете в Jalview и сортируете последовательности по ID. Вот и готово:)
  3. Ищете достоверные блоки для подмножеств белков с 1й и 2й архитектурой.
  4. Описываете что получилось: разделились или нет

В ответе - выравнивание, содержащее обе подгруппы и координаты достоверных блоков, если нашлись.

Рекомендуемое число последовательностей в выравнивании для анализа - в пределах пары сотен. Чтобы была возможность просмотреть всё выравнивание. Но не менее пары 1 - 2 десятков. Соответственно, выбирайте seed или full.

Одна из возможностей уменьшить число последовательностей в выравнивании - из почти совпадающих (идентичность больше порога, например, 90%) оставить одну: Edit => Remove redundancy

Всё делать в Jalview. Нужны знания возможностей Jalview и острый взгляд:).

Главная кнопка в Jalview Esc или Ctrl A. Эффект один - выделенным множеством становятся все последовательности. Иначе у вас может случайно оказаться выделенной одна последовательность, а многие команды относятся только к выделенному множеству.

На лекции будет демонстрация как выполнять это задание.

Выделите небольшой участок (2 или немножко больше колонок) выравнивания с почти, но не совсем консервативными колонками. Select => Make groups for selection. Если появились достаточно крупные группы - Calculate => Sort => by GRoup. Став курсором на группу, правой кнопкой, selection => Edit group => Group color и выбираете вид раскраски. и смотрите, что консервативно в Этой группе, и не встречается в остальных. Это и есть различие.

Группы можно переопределить самому, если надо. Соберите нужные последовательности рядом. Перемещение - стрелочками. Выделите последовательности и создайте из них группу открыв selection правой кнопкой мыши.

2022/2/pr11/hints (последним исправлял пользователь aba 2023-04-23 09:44:21)