#pragma css /css/2024.css
PFAM
1 и 2. Опишите семейство доменов
Что включить в описание, указано в задании. Данные про семейство есть в таблице, из которой вы выбирали семейство, но они устарели на два года)
Нужные данные на сегодня есть в Pfam, интерфейс к которому — на сайте Interpro. Поиск https://www.ebi.ac.uk/interpro/entry/pfam/ по словам из имени (summary name) домена или по его AC (вида PF....., вместо точек цифры; к сожалению, поиск по ID на данный момент не проходит). На странице домена информация о домене доступна в меню слева.
- Proteins: Reviewed = из Swissprot. Download справа позволяет скачивать список имён последовательностей и FASTA последовательности ПОЛНЫХ белков, а не доменов.
- Domain architectures позволяет скачать полные последовательности с данной архитектурой (= последовательностью доменов), щёлкнув на гиперссылку "There are XXX proteins" и далее Download. У каждой архитектуры есть и указан референсный белок, число снизу — его длина в а.к.о.
- Taxonomy показывает таксономическое распределение белков с доменом на разных уровнях таксономии. При наведении курсора на таксон показывает число представителей; если это число - гиперссылка, то по ней можно скачать полные последовательности
- Structures — 3D структуры белков, содержащих домен, или только домена.
- Profile HMM показывает консервативные участки в выравнивании SEED с помощью LOGO. Jalview тоже умеет это показывать
AlphaFold — предсказанные нейросетью структуры
- Alignment — по этой ссылке можно скачать выравнивание SEED. Может, и другое какое-нибудь.
3. Опишите выравнивание белковых доменов (seed) с точки зрения гомологичности всех последовательностей или их подмножества
Терминология
Блок определяется подмножеством последовательностей и участком от позиции S (start) до позиции E (end) выравнивания. Если подмножество содержит K последовательностей соберем их в выравнивании сверху. Блок задаётся так: (i) перечислением последовательностей (удобно их собрать так, чтобы шли сверху с первой по K-ю); (ii) участком позиции от S-той до E-той подряд.
Блок без гэпов это блок, в выравнивании которого нет НИ ОДНОГО гэпа
Уточнение Колонки блока, в которых нет ни одной буквы — только символы гэпа — не в счёт!
В полном выравнивании их не может быть (за бессмысленностью).
В блоке, содержащем не все последовательности, они могут появиться.
Проверка.
- Выделите блок мышью
- Правая кнопка мыши Selection → Output to textbox → fasta → New window (предыдущее окно можно закрыть)
- Меню Edit → Remove empty columns.
Блок достоверный, т.е. можно считать, что выравнивание в нем соответствует эволюционному, если:
- он без гэпов;
- первая позиция блока консервативна или функционально консервативна в блоке (а не во всем выравнивании);
- то же условие на последнюю позицию блока.
Чем больше консервативных позиций в блоке, и чем чаще они идут в блоке, тем достоверность блока выше. Консервативность бывает абсолютной — одна и та же буква в колонке, и функциональной — все а.к.о. в колонке принадлежат одной группе по свойствам. Например [ST], [KR], [ED], [FYW], [LIVM] и др. Группы не абсолютны, их можно переопределять. В первом приближении: буквы образуют группу, если для каждой пары букв вес из матрицы BLOSUM62 положительный.
Достоверный блок максимален если:
- нельзя добавить последовательность к блоку так, чтобы не уменьшить его достоверность;
- нельзя расширить его с N- или C-конца так, чтобы не уменьшить его достоверность.
Примеры блоков есть в презентации к лекции.
JalView методы
У нас в JalView открыто выравнивание. Как:
Перемещать последовательности вверх/вниз |
Выделить их и двигать стрелками вверх или вниз |
Разбить последовательности на подмножества |
выделить несколько соседних колонок, можно не подряд; Select => Make groups for selection; Calculate => Sort => by groups |
Покрасить подмножество последовательностей |
Выделить его; правой кнопкой selection; create group; повторить и выбрать Edit group => Color |
Подмножество сохранить в отдельном окне |
Выделить его; правой кнопкой selection; Output to text box => fasta; New window (предыдущее можно закрыть) |
Как дублировать исходное окно для манипуляций |
Так же: выделить всё Ctrl-a; правой кнопкой мыши Selection; Output to text box => Fasta; New window (предыдущее можно закрыть) |
Перевыровнять последовательности в окне |
Edit => Remove all gaps; Web service => Alignment, выбрать программу. Mafft — самый быстрый сервис, другие имеют свои преимущества |
(О других возможностях см. здесь).
Для поиска блоков поиграйте с раскраской разными способами.
Первый выбор Color => Clustal. В этой раскраске сходные по свойствам а.к. красятся в один цвет
Важная возможность Color => Above identity threshold (и modify identity threshold)
- Сначала установите порог identity равным 100%. Увидите абсолютно консервативные позиции (одна и та же а.к. у всех последовательностей), если они есть
- Снижайте порог и наблюдайте.
4. Построить карту локального сходства двух белков
Используйте BLASTp Align two or more sequences на сайте NCBI.
Получение последовательностей двух белков, содержащих домен, но разной доменной архитектурой.
- На Pfam странице домена открываете список архитектур Domain Architectures.
- Выбираете архитектуру для первого белка
Проходите по ссылке на (represented by _) => download sequence (FASTA)
- То же самое для другой архитектуры; скачивайте последовательность репрезентативного белка
- Открываете Blastp на сайте NCBI. Отмечаете Align two or more sequences. Вводите две последовательности в два окошка. BLAST.
Можно поиграть с порогом E-value. Увеличивая его, чтобы увидеть участки более слабого сходства.
На странице с результатом выбираете Dot Plot и сохраняете его и включаете в отчёт (как рисунок или по гиперссылке)
Интерпретируйте результат. Помочь могут страницы Interpro, с которых скачивали последовательности. На них указаны домены и мотивы из разных БД.
5. Верно ли, что домены, входящие в состав белков с разной доменной архитектурой достоверно различаются?
Этапы
Выбирайте доменные архитектуры с небольшим числом последовательностей 10-20 или не сильно больше.
Одна из возможностей уменьшить число последовательностей в выравнивании - из почти совпадающих (идентичность больше порога, например, 90%) оставить одну: Edit => Remove redundancy
- На Pfam странице домена открываете вкладку Domain Architectures.
- Выбираете архитектуру 1
- Скачиваете все последовательности (гиперссылка на их число, щелкнуть на "There are XXX proteins with this architecture"). Это полноразмерные последовательности.
- Выравниваете эти последовательности в Jalview
- Находите границы вашего домена в выравнивании.
- Для этого находит границы домена в одной (например, 1й) последовательности по ссылке со страницы с архитектурой. На странице белка указаны домены в нём с координатами В ПОСЛЕДОВАТЕЛЬНОСТИ.
- Находите эту последовательность в выравнивании (удача - порядок последовательностей в выравнивании такой же, как на странице архитектуры
- Переводите эти координаты в координаты в выравнивании: от колонки X до колонки Y. Номер буквы в последовательности появляется снизу окошка выравнивания при наведении курсора на букву.
- Для контроля можете повторить для другой последовательности.
Выделяете колонки от X до Y. Selection => Output to text box (fasta); охраняете в файле (arch.fasta).
- Повторяете поиск и вырезание домена для второй архитектуры.
- Выравнивание последовательностей доменов из двух архитектур.
- Добавляете последовательности домена второй архитектуры в конец файла arch. fasta.
Открываете в Jalview => Edit=> remove all gaps.
Web services => alignment, выравниваете.
- Проверьте, что в выравнивании белки с 1й доменной архитектурой расположены сверху, а со 2й -снизу. Вроде бы перестановок по дороге не было
- Найдите достоверные блоки в доменах с одной архитектурой, не расширяющиеся на вторую
- Составьте отчёт.
В ответе - выравнивание, содержащее обе подгруппы и координаты достоверных блоков, если нашлись.
Рекомендуемое число последовательностей в выравнивании для анализа - в пределах пары сотен. Чтобы была возможность просмотреть всё выравнивание. Но не менее пары десятков. Соответственно, выбирайте seed или full.
Всё делать в Jalview. Нужны знания возможностей Jalview и острый взгляд:).
Главная кнопка в Jalview Esc или Ctrl A. Эффект один - выделенным множеством становятся все последовательности. Иначе у вас может случайно оказаться выделенной одна последовательность, а многие команды относятся только к выделенному множеству.
Выделите небольшой участок (2 или немножко больше колонок) выравнивания с почти, но не совсем консервативными колонками. Select => Make groups for selection. Если появились достаточно крупные группы - Calculate => Sort => by GRoup. Став курсором на группу, правой кнопкой, selection => Edit group => Group color и выбираете вид раскраски. и смотрите, что консервативно в Этой группе, и не встречается в остальных. Это и есть различие.
Группы можно переопределить самому, если надо. Соберите нужные последовательности рядом. Перемещение - стрелочками. Выделите последовательности и создайте из них группу открыв selection правой кнопкой мыши.

2024
2023
2022
2021
2020
2019
2018
2017
Составить список белков с первой доменной архитектурой и со второй доменной архитектурой. Варианты как это сделать такие.
Uniprot => search advanced.
Поле для поиска в окне выбираете cross-reference далее family and domain databases далее Pfam вводите AC своего домена => Search
Выбираете колонки для сохранения таблицы. Обязательно Entry (AC), Entry name (ID), External resources => Family and domain: Pfam. Можно добавить sequence length. Download => сохраняете таблицу в удобном для Вас формате (tsv, excel). Из сохраненной таблицы получаете списки белков с нужной архитектурой.
В ответе - выравнивание, содержащее обе подгруппы и координаты достоверных блоков, если нашлись.
Рекомендуемое число последовательностей в выравнивании для анализа - в пределах пары сотен. Чтобы была возможность просмотреть всё выравнивание. Но не менее пары десятков. Соответственно, выбирайте seed или full.
Одна из возможностей уменьшить число последовательностей в выравнивании - из почти совпадающих (идентичность больше порога, например, 90%) оставить одну: Edit => Remove redundancy