Учебная страница курса биоинформатики,
год поступления 2025

PFAM

1 и 2. Опишите семейство доменов

Что включить в описание, указано в задании.
Нужные данные на сегодня есть в Pfam, интерфейс к которому — на сайте Interpro. Поиск https://www.ebi.ac.uk/interpro/entry/pfam/ по словам из имени (summary name) домена или по его AC (вида PF....., вместо точек цифры; к сожалению, поиск по ID на данный момент не проходит). На странице домена информация о домене доступна в меню слева.
Proteins: Reviewed = из Swissprot. Download справа позволяет скачивать список имён последовательностей и FASTA последовательности ПОЛНЫХ белков, а не доменов.
Domain architectures позволяет скачать полные последовательности с данной архитектурой (= последовательностью доменов), щёлкнув на гиперссылку "There are XXX proteins" и далее Download. У каждой архитектуры есть и указан референсный белок, число снизу — его длина в а.к.о.
Taxonomy показывает таксономическое распределение белков с доменом на разных уровнях таксономии. При наведении курсора на таксон показывает число представителей; если это число - гиперссылка, то по ней можно скачать полные последовательности
Structures — 3D структуры белков, содержащих домен, или только домена.
Profile HMM показывает консервативные участки в выравнивании SEED с помощью LOGO. Jalview тоже умеет это показывать
AlphaFold — предсказанные нейросетью структуры
Alignment — по этой ссылке можно скачать выравнивание SEED. Может, и другое какое-нибудь.

3. Опишите выравнивание белковых доменов (seed) с точки зрения гомологичности всех последовательностей или их подмножества

Терминология

Блок определяется подмножеством последовательностей и участком от позиции S (start) до позиции E (end) выравнивания. Если подмножество содержит K последовательностей соберем их в выравнивании сверху. Блок задаётся так: (i) перечислением последовательностей (удобно их собрать так, чтобы шли сверху с первой по K-ю); (ii) участком позиции от S-той до E-той подряд.

Блок без гэпов это блок, в выравнивании которого нет НИ ОДНОГО гэпа

Уточнение Колонки блока, в которых нет ни одной буквы — только символы гэпа — не в счёт!

В полном выравнивании их не может быть (за бессмысленностью).

В блоке, содержащем не все последовательности, они могут появиться.

Проверка.

Выделите блок мышью
Правая кнопка мыши Selection → Output to textbox → fasta → New window (предыдущее окно можно закрыть)
Меню Edit → Remove empty columns.

Блок достоверный, т.е. можно считать, что выравнивание в нем соответствует эволюционному, если:

он без гэпов;
первая позиция блока консервативна или функционально консервативна в блоке (а не во всем выравнивании);
то же условие на последнюю позицию блока.

Чем больше консервативных позиций в блоке, и чем чаще они идут в блоке, тем достоверность блока выше. Консервативность бывает абсолютной — одна и та же буква в колонке, и функциональной — все а.к.о. в колонке принадлежат одной группе по свойствам. Например [ST], [KR], [ED], [FYW], [LIVM] и др. Группы не абсолютны, их можно переопределять. В первом приближении: буквы образуют группу, если для каждой пары букв вес из матрицы BLOSUM62 положительный.

Достоверный блок максимален если:

нельзя добавить последовательность к блоку так, чтобы не уменьшить его достоверность;
нельзя расширить его с N- или C-конца так, чтобы не уменьшить его достоверность.

Примеры блоков есть в презентации к лекции.

JalView методы

У нас в JalView открыто выравнивание. Как:

Перемещать последовательности вверх/вниз	Выделить их и двигать стрелками вверх или вниз
Разбить последовательности на подмножества	выделить несколько соседних колонок, можно не подряд; Select => Make groups for selection; Calculate => Sort => by groups
Покрасить подмножество последовательностей	Выделить его; правой кнопкой selection; create group; повторить и выбрать Edit group => Color
Подмножество сохранить в отдельном окне	Выделить его; правой кнопкой selection; Output to text box => fasta; New window (предыдущее можно закрыть)
Как дублировать исходное окно для манипуляций	Так же: выделить всё Ctrl-a; правой кнопкой мыши Selection; Output to text box => Fasta; New window (предыдущее можно закрыть)
Перевыровнять последовательности в окне	Edit => Remove all gaps; Web service => Alignment, выбрать программу. Mafft — самый быстрый сервис, другие имеют свои преимущества

(О других возможностях см. здесь).

Для поиска блоков поиграйте с раскраской разными способами.

Первый выбор Color => Clustal. В этой раскраске сходные по свойствам а.к. красятся в один цвет
Важная возможность Color => Above identity threshold (и modify identity threshold)
Сначала установите порог identity равным 100%. Увидите абсолютно консервативные позиции (одна и та же а.к. у всех последовательностей), если они есть
Снижайте порог и наблюдайте.

4. Построить карту локального сходства двух белков

Используйте BLASTp Align two or more sequences на сайте NCBI.

Получение последовательностей двух белков, содержащих домен, но разной доменной архитектурой.

На Pfam странице домена открываете список архитектур Domain Architectures.
Выбираете архитектуру для первого белка
Проходите по ссылке на (represented by _) => download sequence (FASTA)
То же самое для другой архитектуры; скачивайте последовательность репрезентативного белка
Открываете Blastp на сайте NCBI. Отмечаете Align two or more sequences. Вводите две последовательности в два окошка. BLAST.

Можно поиграть с порогом E-value. Увеличивая его, чтобы увидеть участки более слабого сходства.

На странице с результатом выбираете Dot Plot и сохраняете его и включаете в отчёт (как рисунок или по гиперссылке)

Интерпретируйте результат. Помочь могут страницы Interpro, с которых скачивали последовательности. На них указаны домены и мотивы из разных БД.

5. Верно ли, что домены, входящие в состав белков с разной доменной архитектурой достоверно различаются?

Этапы

Выбирайте доменные архитектуры с небольшим числом последовательностей 10-20 или не сильно больше.

Одна из возможностей уменьшить число последовательностей в выравнивании - из почти совпадающих (идентичность больше порога, например, 90%) оставить одну: Edit => Remove redundancy

На Pfam странице домена открываете вкладку Domain Architectures.
Выбираете архитектуру 1
Скачиваете все последовательности (гиперссылка на их число, щелкнуть на "There are XXX proteins with this architecture"). Это полноразмерные последовательности.
Выравниваете эти последовательности в Jalview
Находите границы вашего домена в выравнивании.
1. Для этого находит границы домена в одной (например, 1й) последовательности по ссылке со страницы с архитектурой. На странице белка указаны домены в нём с координатами В ПОСЛЕДОВАТЕЛЬНОСТИ.
2. Находите эту последовательность в выравнивании (удача - порядок последовательностей в выравнивании такой же, как на странице архитектуры
3. Переводите эти координаты в координаты в выравнивании: от колонки X до колонки Y. Номер буквы в последовательности появляется снизу окошка выравнивания при наведении курсора на букву.
4. Для контроля можете повторить для другой последовательности.
5. Выделяете колонки от X до Y. Selection => Output to text box (fasta); охраняете в файле (arch.fasta).
Повторяете поиск и вырезание домена для второй архитектуры.
Выравнивание последовательностей доменов из двух архитектур.
1. Добавляете последовательности домена второй архитектуры в конец файла arch. fasta.
2. Открываете в Jalview => Edit=> remove all gaps.
3. Web services => alignment, выравниваете.
Проверьте, что в выравнивании белки с 1й доменной архитектурой расположены сверху, а со 2й -снизу. Вроде бы перестановок по дороге не было
Найдите достоверные блоки в доменах с одной архитектурой, не расширяющиеся на вторую
Составьте отчёт.

Получить выравнивание доменов, в котором белки с 1й доменной архитектурой расположены сверху, а со 2й -снизу

Составить список белков с первой доменной архитектурой и со второй доменной архитектурой. Варианты как это сделать такие.

Есть программный доступ, но я им не пользовался, значит, не могу объяснить.
Некрасивый. На странице architecture на сайте Pfam открыть (show) список последовательностей с рисунками, скопировать его и вставить в текстовый файл. UPD: В новом интерфейсе Interpro выбрать архитектуры во вкладке Domain Architectures, щелкнуть на "There are XXX proteins with this architecture" и экспортировать таблицу с названиями последовательностей, либо сами последовательности в формате fasta.
Более технологичный, но и более долгий. Скачать из Uniprot таблицу с белками с нужным доменом, содержащую сведения обо всех доменах Pfam в белке.
- Uniprot => search advanced.
- Поле для поиска в окне выбираете cross-reference далее family and domain databases далее Pfam вводите AC своего домена => Search
- Выбираете колонки для сохранения таблицы. Обязательно Entry (AC), Entry name (ID), External resources => Family and domain: Pfam. Можно добавить sequence length. Download => сохраняете таблицу в удобном для Вас формате (tsv, excel). Из сохраненной таблицы получаете списки белков с нужной архитектурой.

Получить выравнивание доменов, в котором белки с 1й доменной архитектурой расположены сверху, а со 2й -снизу
1. Пишете скрипт (или руками, если мало последовательностей), чтобы вставить 1 перед именами последовательностей с 1й архитектурой, и 2 - перед именами последовательностей со 2й архитектурой
2. Открываете в Jalview и сортируете последовательности по ID. Вот и готово:)
Ищете достоверные блоки для подмножеств белков с 1й и 2й архитектурой.
Описываете что получилось: разделились или нет

В ответе - выравнивание, содержащее обе подгруппы и координаты достоверных блоков, если нашлись.

Рекомендуемое число последовательностей в выравнивании для анализа - в пределах пары сотен. Чтобы была возможность просмотреть всё выравнивание. Но не менее пары десятков. Соответственно, выбирайте seed или full.

В ответе - выравнивание, содержащее обе подгруппы и координаты достоверных блоков, если нашлись.

Всё делать в Jalview. Нужны знания возможностей Jalview и острый взгляд:).

Главная кнопка в Jalview Esc или Ctrl A. Эффект один - выделенным множеством становятся все последовательности. Иначе у вас может случайно оказаться выделенной одна последовательность, а многие команды относятся только к выделенному множеству.

Выделите небольшой участок (2 или немножко больше колонок) выравнивания с почти, но не совсем консервативными колонками. Select => Make groups for selection. Если появились достаточно крупные группы - Calculate => Sort => by GRoup. Став курсором на группу, правой кнопкой, selection => Edit group => Group color и выбираете вид раскраски. и смотрите, что консервативно в Этой группе, и не встречается в остальных. Это и есть различие.

Группы можно переопределить самому, если надо. Соберите нужные последовательности рядом. Перемещение - стрелочками. Выделите последовательности и создайте из них группу открыв selection правой кнопкой мыши.

2025/2/pr11/hints (последним исправлял пользователь vakulenko_julia 2026-04-21 13:42:35)

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2025

PFAM

1 и 2. Опишите семейство доменов

3. Опишите выравнивание белковых доменов (seed) с точки зрения гомологичности всех последовательностей или их подмножества

Терминология

JalView методы

4. Построить карту локального сходства двух белков

5. Верно ли, что домены, входящие в состав белков с разной доменной архитектурой достоверно различаются?

Этапы

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2025

PFAM

1 и 2. Опишите семейство доменов

3. Опишите выравнивание белковых доменов (seed) с точки зрения гомологичности всех последовательностей или их подмножества

Терминология

JalView методы

4. Построить карту локального сходства двух белков

5. Верно ли, что домены, входящие в состав белков с разной доменной архитектурой достоверно различаются?

Этапы

Учебная страница курса биоинформатики,
год поступления 2025