Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2025

#pragma css /css/2024.css

Учебная страница курса биоинформатики,
год поступления 2025

PFAM

1 и 2. Опишите семейство доменов

  1. Что включить в описание, указано в задании. Данные про семейство есть в таблице, из которой вы выбирали семейство, но они устарели на два года)

  2. Нужные данные на сегодня есть в Pfam, интерфейс к которому — на сайте Interpro. Поиск https://www.ebi.ac.uk/interpro/entry/pfam/ по словам из имени (summary name) домена или по его AC (вида PF....., вместо точек цифры; к сожалению, поиск по ID на данный момент не проходит). На странице домена информация о домене доступна в меню слева.

  3. Proteins: Reviewed = из Swissprot. Download справа позволяет скачивать список имён последовательностей и FASTA последовательности ПОЛНЫХ белков, а не доменов.
  4. Domain architectures позволяет скачать полные последовательности с данной архитектурой (= последовательностью доменов), щёлкнув на гиперссылку "There are XXX proteins" и далее Download. У каждой архитектуры есть и указан референсный белок, число снизу — его длина в а.к.о.
  5. Taxonomy показывает таксономическое распределение белков с доменом на разных уровнях таксономии. При наведении курсора на таксон показывает число представителей; если это число - гиперссылка, то по ней можно скачать полные последовательности
  6. Structures — 3D структуры белков, содержащих домен, или только домена.
  7. Profile HMM показывает консервативные участки в выравнивании SEED с помощью LOGO. Jalview тоже умеет это показывать
  8. AlphaFold — предсказанные нейросетью структуры

  9. Alignment — по этой ссылке можно скачать выравнивание SEED. Может, и другое какое-нибудь.

3. Опишите выравнивание белковых доменов (seed) с точки зрения гомологичности всех последовательностей или их подмножества

Терминология

Блок определяется подмножеством последовательностей и участком от позиции S (start) до позиции E (end) выравнивания. Если подмножество содержит K последовательностей соберем их в выравнивании сверху. Блок задаётся так: (i) перечислением последовательностей (удобно их собрать так, чтобы шли сверху с первой по K-ю); (ii) участком позиции от S-той до E-той подряд.

Блок без гэпов это блок, в выравнивании которого нет НИ ОДНОГО гэпа

Уточнение Колонки блока, в которых нет ни одной буквы — только символы гэпа — не в счёт!

В полном выравнивании их не может быть (за бессмысленностью).

В блоке, содержащем не все последовательности, они могут появиться.

Проверка.

  1. Выделите блок мышью
  2. Правая кнопка мыши Selection → Output to textbox → fasta → New window (предыдущее окно можно закрыть)
  3. Меню Edit → Remove empty columns.

Блок достоверный, т.е. можно считать, что выравнивание в нем соответствует эволюционному, если:

  1. он без гэпов;
  2. первая позиция блока консервативна или функционально консервативна в блоке (а не во всем выравнивании);
  3. то же условие на последнюю позицию блока.

Чем больше консервативных позиций в блоке, и чем чаще они идут в блоке, тем достоверность блока выше. Консервативность бывает абсолютной — одна и та же буква в колонке, и функциональной — все а.к.о. в колонке принадлежат одной группе по свойствам. Например [ST], [KR], [ED], [FYW], [LIVM] и др. Группы не абсолютны, их можно переопределять. В первом приближении: буквы образуют группу, если для каждой пары букв вес из матрицы BLOSUM62 положительный.

Достоверный блок максимален если:

  1. нельзя добавить последовательность к блоку так, чтобы не уменьшить его достоверность;
  2. нельзя расширить его с N- или C-конца так, чтобы не уменьшить его достоверность.

Примеры блоков есть в презентации к лекции.

JalView методы

У нас в JalView открыто выравнивание. Как:

Перемещать последовательности вверх/вниз

Выделить их и двигать стрелками вверх или вниз

Разбить последовательности на подмножества

выделить несколько соседних колонок, можно не подряд; Select => Make groups for selection; Calculate => Sort => by groups

Покрасить подмножество последовательностей

Выделить его; правой кнопкой selection; create group; повторить и выбрать Edit group => Color

Подмножество сохранить в отдельном окне

Выделить его; правой кнопкой selection; Output to text box => fasta; New window (предыдущее можно закрыть)

Как дублировать исходное окно для манипуляций

Так же: выделить всё Ctrl-a; правой кнопкой мыши Selection; Output to text box => Fasta; New window (предыдущее можно закрыть)

Перевыровнять последовательности в окне

Edit => Remove all gaps; Web service => Alignment, выбрать программу. Mafft — самый быстрый сервис, другие имеют свои преимущества

(О других возможностях см. здесь).

Для поиска блоков поиграйте с раскраской разными способами.

  1. Первый выбор Color => Clustal. В этой раскраске сходные по свойствам а.к. красятся в один цвет

  2. Важная возможность Color => Above identity threshold (и modify identity threshold)

  3. Сначала установите порог identity равным 100%. Увидите абсолютно консервативные позиции (одна и та же а.к. у всех последовательностей), если они есть
  4. Снижайте порог и наблюдайте.

4. Построить карту локального сходства двух белков

Используйте BLASTp Align two or more sequences на сайте NCBI.

Получение последовательностей двух белков, содержащих домен, но разной доменной архитектурой.

Можно поиграть с порогом E-value. Увеличивая его, чтобы увидеть участки более слабого сходства.

На странице с результатом выбираете Dot Plot и сохраняете его и включаете в отчёт (как рисунок или по гиперссылке)

Интерпретируйте результат. Помочь могут страницы Interpro, с которых скачивали последовательности. На них указаны домены и мотивы из разных БД.

5. Верно ли, что домены, входящие в состав белков с разной доменной архитектурой достоверно различаются?

Этапы

Выбирайте доменные архитектуры с небольшим числом последовательностей 10-20 или не сильно больше.

Одна из возможностей уменьшить число последовательностей в выравнивании - из почти совпадающих (идентичность больше порога, например, 90%) оставить одну: Edit => Remove redundancy

  1. На Pfam странице домена открываете вкладку Domain Architectures.
  2. Выбираете архитектуру 1
  3. Скачиваете все последовательности (гиперссылка на их число, щелкнуть на "There are XXX proteins with this architecture"). Это полноразмерные последовательности.
  4. Выравниваете эти последовательности в Jalview
  5. Находите границы вашего домена в выравнивании.
    1. Для этого находит границы домена в одной (например, 1й) последовательности по ссылке со страницы с архитектурой. На странице белка указаны домены в нём с координатами В ПОСЛЕДОВАТЕЛЬНОСТИ.
    2. Находите эту последовательность в выравнивании (удача - порядок последовательностей в выравнивании такой же, как на странице архитектуры
    3. Переводите эти координаты в координаты в выравнивании: от колонки X до колонки Y. Номер буквы в последовательности появляется снизу окошка выравнивания при наведении курсора на букву.
    4. Для контроля можете повторить для другой последовательности.
    5. Выделяете колонки от X до Y. Selection => Output to text box (fasta); охраняете в файле (arch.fasta).

  6. Повторяете поиск и вырезание домена для второй архитектуры.
  7. Выравнивание последовательностей доменов из двух архитектур.
    1. Добавляете последовательности домена второй архитектуры в конец файла arch. fasta.
    2. Открываете в Jalview => Edit=> remove all gaps.

    3. Web services => alignment, выравниваете.

  8. Проверьте, что в выравнивании белки с 1й доменной архитектурой расположены сверху, а со 2й -снизу. Вроде бы перестановок по дороге не было
  9. Найдите достоверные блоки в доменах с одной архитектурой, не расширяющиеся на вторую
  10. Составьте отчёт.

В ответе - выравнивание, содержащее обе подгруппы и координаты достоверных блоков, если нашлись.

Рекомендуемое число последовательностей в выравнивании для анализа - в пределах пары сотен. Чтобы была возможность просмотреть всё выравнивание. Но не менее пары десятков. Соответственно, выбирайте seed или full.

Всё делать в Jalview. Нужны знания возможностей Jalview и острый взгляд:).

Главная кнопка в Jalview Esc или Ctrl A. Эффект один - выделенным множеством становятся все последовательности. Иначе у вас может случайно оказаться выделенной одна последовательность, а многие команды относятся только к выделенному множеству.

Выделите небольшой участок (2 или немножко больше колонок) выравнивания с почти, но не совсем консервативными колонками. Select => Make groups for selection. Если появились достаточно крупные группы - Calculate => Sort => by GRoup. Став курсором на группу, правой кнопкой, selection => Edit group => Group color и выбираете вид раскраски. и смотрите, что консервативно в Этой группе, и не встречается в остальных. Это и есть различие.

Группы можно переопределить самому, если надо. Соберите нужные последовательности рядом. Перемещение - стрелочками. Выделите последовательности и создайте из них группу открыв selection правой кнопкой мыши.

2025/2/pr11/hints (последним исправлял пользователь vakulenko_julia 2026-04-16 08:00:18)