PFAM
1. Опишите семейство доменов
- Что включить в описание, указано в задании. Данные про семейство есть в таблице, из которой вы выбирали семейство, но они устарели на два года)
Нужные данные на сегодня есть в Pfam, интерфейс к которому — на сайте Interpro. Поиск https://www.ebi.ac.uk/interpro/entry/pfam/ по словам из имени (summary name) домена или по его AC (вида PF....., вместо точек цифры; к сожалению, поиск по ID на данный момент не проходит). На странице домена информация о домене доступна в меню слева.
- Proteins: Reviewed = из Swissprot. Download справа позволяет скачивать список имён последовательностей и FASTA последовательности ПОЛНЫХ белков, а не доменов.
- Domain architectures позволяет скачать полные последовательности с данной архитектурой (= последовательностью доменов), щёлкнув на гиперссылку "There are XXX proteins" и далее Download. У каждой архитектуры есть и указан референсный белок, число снизу — его длина в а.к.о.
- Taxonomy показывает таксономическое распределение белков с доменом на разных уровнях таксономии. При наведении курсора на таксон показывает число представителей; если это число - гиперссылка, то по ней можно скачать полные последовательности
- Structures — 3D структуры белков, содержащих домен, или только домена.
- Profile HMM показывает консервативные участки в выравнивании SEED с помощью LOGO. Jalview тоже умеет это показывать
AlphaFold — предсказанные нейросетью структуры
- Alignment — по этой ссылке можно скачать выравнивание SEED. Может и другое какое-нибудь.
2. Построить карту локального сходства двух белков
Используйте BLASTp Align two or more sequences на сайте NCBI.
Получение последовательностей двух белков, содержащих домен, но разной доменной архитектурой.
- На Pfam странице домена открываете список архитектур Domain Architectures.
- Выбираете архитектуру для первого белка
Проходите по ссылке на (represented by _) => download sequence (FASTA)
- То же самое для другой архитектуры; скачивайте последовательность репрезентативного белка
- Открываете Blastp на сайте NCBI. Отмечаете Align two or more sequences. Вводите две последовательности в два окошка. BLAST.
Можно поиграть с порогом E-value. Увеличивая его, чтобы увидеть участки более слабого сходства.
На странице с результатом выбираете Dot Plot и сохраняете его и включаете в отчёт (как рисунок или по гиперссылке)
Интерпретируйте результат. Помочь могут страницы Interpro, с которых скачивали последовательности. На них указаны домены и мотивы из разных БД.
3. Верно ли, что домены, входящие в состав белков с разной доменной архитектурой достоверно различаются?
Этапы
Выбирайте доменные архитектуры с небольшим числом последовательностей 10-20 или не сильно больше.
Одна из возможностей уменьшить число последовательностей в выравнивании - из почти совпадающих (идентичность больше порога, например, 90%) оставить одну: Edit => Remove redundancy
- На Pfam странице домена открываете вкладку Domain Architectures.
- Выбираете архитектуру 1
- Скачиваете все последовательности (гиперссылка на их число, щелкнуть на "There are XXX proteins with this architecture"). Это полноразмерные последовательности.
- Выравниваете эти последовательности в Jalview
- Находите границы вашего домена в выравнивании.
- Для этого находит границы домена в одной (например, 1й) последовательности по ссылке со страницы с архитектурой. На странице белка указаны домены в нём с координатами В ПОСЛЕДОВАТЕЛЬНОСТИ.
- Находите эту последовательность в выравнивании (удача - порядок последовательностей в выравнивании такой же, как на странице архитектуры
- Переводите эти координаты в координаты в выравнивании: от колонки X до колонки Y. Номер буквы в последовательности появляется снизу окошка выравнивания при наведении курсора на букву.
- Для контроля можете повторить для другой последовательности.
Выделяете колонки от X до Y. Selection => Output to text box (fasta); охраняете в файле (arch.fasta).
- Повторяете поиск и вырезание домена для второй архитектуры.
- Выравнивание последовательностей доменов из двух архитектур.
- Добавляете последовательности домена второй архитектуры в конец файла arch. fasta.
Открываете в Jalview => Edit=> remove all gaps.
Web services => alignment, выравниваете.
- Проверьте, что в выравнивании белки с 1й доменной архитектурой расположены сверху, а со 2й -снизу. Вроде бы перестановок по дороге не было
- Найдите достоверные блоки в доменах с одной архитектурой, не расширяющиеся на вторую
- Составьте отчёт.
В ответе - выравнивание, содержащее обе подгруппы и координаты достоверных блоков, если нашлись.
Рекомендуемое число последовательностей в выравнивании для анализа - в пределах пары сотен. Чтобы была возможность просмотреть всё выравнивание. Но не менее пары десятков. Соответственно, выбирайте seed или full.
Всё делать в Jalview. Нужны знания возможностей Jalview и острый взгляд:).
Главная кнопка в Jalview Esc или Ctrl A. Эффект один - выделенным множеством становятся все последовательности. Иначе у вас может случайно оказаться выделенной одна последовательность, а многие команды относятся только к выделенному множеству.
Выделите небольшой участок (2 или немножко больше колонок) выравнивания с почти, но не совсем консервативными колонками. Select => Make groups for selection. Если появились достаточно крупные группы - Calculate => Sort => by GRoup. Став курсором на группу, правой кнопкой, selection => Edit group => Group color и выбираете вид раскраски. и смотрите, что консервативно в Этой группе, и не встречается в остальных. Это и есть различие.
Группы можно переопределить самому, если надо. Соберите нужные последовательности рядом. Перемещение - стрелочками. Выделите последовательности и создайте из них группу открыв selection правой кнопкой мыши.
Составить список белков с первой доменной архитектурой и со второй доменной архитектурой. Варианты как это сделать такие.
Uniprot => search advanced.
Поле для поиска в окне выбираете cross-reference далее family and domain databases далее Pfam вводите AC своего домена => Search
Выбираете колонки для сохранения таблицы. Обязательно Entry (AC), Entry name (ID), External resources => Family and domain: Pfam. Можно добавить sequence length. Download => сохраняете таблицу в удобном для Вас формате (tsv, excel). Из сохраненной таблицы получаете списки белков с нужной архитектурой.
В ответе - выравнивание, содержащее обе подгруппы и координаты достоверных блоков, если нашлись.
Рекомендуемое число последовательностей в выравнивании для анализа - в пределах пары сотен. Чтобы была возможность просмотреть всё выравнивание. Но не менее пары десятков. Соответственно, выбирайте seed или full.
Одна из возможностей уменьшить число последовательностей в выравнивании - из почти совпадающих (идентичность больше порога, например, 90%) оставить одну: Edit => Remove redundancy