Учебная страница курса биоинформатики,
год поступления 2024

Семестры Студенты Преподаватели

PFAM

1. Опишите семейство доменов

Что включить в описание, указано в задании. Данные про семейство есть в таблице, из которой вы выбирали семейство, но они устарели на два года)
Нужные данные на сегодня есть в Pfam, интерфейс к которому — на сайте Interpro. Поиск https://www.ebi.ac.uk/interpro/entry/pfam/ по словам из имени (summary name) домена или по его AC (вида PF....., вместо точек цифры; к сожалению, поиск по ID на данный момент не проходит). На странице домена информация о домене доступна в меню слева.
Proteins: Reviewed = из Swissprot. Download справа позволяет скачивать список имён последовательностей и FASTA последовательности ПОЛНЫХ белков, а не доменов.
Domain architectures позволяет скачать полные последовательности с данной архитектурой (= последовательностью доменов), щёлкнув на гиперссылку "There are XXX proteins" и далее Download. У каждой архитектуры есть и указан референсный белок, число снизу — его длина в а.к.о.
Taxonomy показывает таксономическое распределение белков с доменом на разных уровнях таксономии. При наведении курсора на таксон показывает число представителей; если это число - гиперссылка, то по ней можно скачать полные последовательности
Structures — 3D структуры белков, содержащих домен, или только домена.
Profile HMM показывает консервативные участки в выравнивании SEED с помощью LOGO. Jalview тоже умеет это показывать
AlphaFold — предсказанные нейросетью структуры
Alignment — по этой ссылке можно скачать выравнивание SEED. Может и другое какое-нибудь.

2. Построить карту локального сходства двух белков

Используйте BLASTp Align two or more sequences на сайте NCBI.

Получение последовательностей двух белков, содержащих домен, но разной доменной архитектурой.

На Pfam странице домена открываете список архитектур Domain Architectures.
Выбираете архитектуру для первого белка
Проходите по ссылке на (represented by _) => download sequence (FASTA)
То же самое для другой архитектуры; скачивайте последовательность репрезентативного белка
Открываете Blastp на сайте NCBI. Отмечаете Align two or more sequences. Вводите две последовательности в два окошка. BLAST.

Можно поиграть с порогом E-value. Увеличивая его, чтобы увидеть участки более слабого сходства.

На странице с результатом выбираете Dot Plot и сохраняете его и включаете в отчёт (как рисунок или по гиперссылке)

Интерпретируйте результат. Помочь могут страницы Interpro, с которых скачивали последовательности. На них указаны домены и мотивы из разных БД.

3. Верно ли, что домены, входящие в состав белков с разной доменной архитектурой достоверно различаются?

Этапы

Выбирайте доменные архитектуры с небольшим числом последовательностей 10-20 или не сильно больше.

Одна из возможностей уменьшить число последовательностей в выравнивании - из почти совпадающих (идентичность больше порога, например, 90%) оставить одну: Edit => Remove redundancy

На Pfam странице домена открываете вкладку Domain Architectures.
Выбираете архитектуру 1
Скачиваете все последовательности (гиперссылка на их число, щелкнуть на "There are XXX proteins with this architecture"). Это полноразмерные последовательности.
Выравниваете эти последовательности в Jalview
Находите границы вашего домена в выравнивании.
1. Для этого находит границы домена в одной (например, 1й) последовательности по ссылке со страницы с архитектурой. На странице белка указаны домены в нём с координатами В ПОСЛЕДОВАТЕЛЬНОСТИ.
2. Находите эту последовательность в выравнивании (удача - порядок последовательностей в выравнивании такой же, как на странице архитектуры
3. Переводите эти координаты в координаты в выравнивании: от колонки X до колонки Y. Номер буквы в последовательности появляется снизу окошка выравнивания при наведении курсора на букву.
4. Для контроля можете повторить для другой последовательности.
5. Выделяете колонки от X до Y. Selection => Output to text box (fasta); охраняете в файле (arch.fasta).
Повторяете поиск и вырезание домена для второй архитектуры.
Выравнивание последовательностей доменов из двух архитектур.
1. Добавляете последовательности домена второй архитектуры в конец файла arch. fasta.
2. Открываете в Jalview => Edit=> remove all gaps.
3. Web services => alignment, выравниваете.
Проверьте, что в выравнивании белки с 1й доменной архитектурой расположены сверху, а со 2й -снизу. Вроде бы перестановок по дороге не было
Найдите достоверные блоки в доменах с одной архитектурой, не расширяющиеся на вторую
Составьте отчёт.

Получить выравнивание доменов, в котором белки с 1й доменной архитектурой расположены сверху, а со 2й -снизу

Составить список белков с первой доменной архитектурой и со второй доменной архитектурой. Варианты как это сделать такие.

Есть программный доступ, но я им не пользовался, значит, не могу объяснить.
Некрасивый. На странице architecture на сайте Pfam открыть (show) список последовательностей с рисунками, скопировать его и вставить в текстовый файл. UPD: В новом интерфейсе Interpro выбрать архитектуры во вкладке Domain Architectures, щелкнуть на "There are XXX proteins with this architecture" и экспортировать таблицу с названиями последовательностей, либо сами последовательности в формате fasta.
Более технологичный, но и более долгий. Скачать из Uniprot таблицу с белками с нужным доменом, содержащую сведения обо всех доменах Pfam в белке.
- Uniprot => search advanced.
- Поле для поиска в окне выбираете cross-reference далее family and domain databases далее Pfam вводите AC своего домена => Search
- Выбираете колонки для сохранения таблицы. Обязательно Entry (AC), Entry name (ID), External resources => Family and domain: Pfam. Можно добавить sequence length. Download => сохраняете таблицу в удобном для Вас формате (tsv, excel). Из сохраненной таблицы получаете списки белков с нужной архитектурой.

Получить выравнивание доменов, в котором белки с 1й доменной архитектурой расположены сверху, а со 2й -снизу
1. Пишете скрипт (или руками, если мало последовательностей), чтобы вставить 1 перед именами последовательностей с 1й архитектурой, и 2 - перед именами последовательностей со 2й архитектурой
2. Открываете в Jalview и сортируете последовательности по ID. Вот и готово:)
Ищете достоверные блоки для подмножеств белков с 1й и 2й архитектурой.
Описываете что получилось: разделились или нет

В ответе - выравнивание, содержащее обе подгруппы и координаты достоверных блоков, если нашлись.

Рекомендуемое число последовательностей в выравнивании для анализа - в пределах пары сотен. Чтобы была возможность просмотреть всё выравнивание. Но не менее пары десятков. Соответственно, выбирайте seed или full.

В ответе - выравнивание, содержащее обе подгруппы и координаты достоверных блоков, если нашлись.

Всё делать в Jalview. Нужны знания возможностей Jalview и острый взгляд:).

Главная кнопка в Jalview Esc или Ctrl A. Эффект один - выделенным множеством становятся все последовательности. Иначе у вас может случайно оказаться выделенной одна последовательность, а многие команды относятся только к выделенному множеству.

Выделите небольшой участок (2 или немножко больше колонок) выравнивания с почти, но не совсем консервативными колонками. Select => Make groups for selection. Если появились достаточно крупные группы - Calculate => Sort => by GRoup. Став курсором на группу, правой кнопкой, selection => Edit group => Group color и выбираете вид раскраски. и смотрите, что консервативно в Этой группе, и не встречается в остальных. Это и есть различие.

Группы можно переопределить самому, если надо. Соберите нужные последовательности рядом. Перемещение - стрелочками. Выделите последовательности и создайте из них группу открыв selection правой кнопкой мыши.

2024/2/pr12/hints (последним исправлял пользователь sas 2025-04-29 08:59:44)

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2024

PFAM

1. Опишите семейство доменов

2. Построить карту локального сходства двух белков

3. Верно ли, что домены, входящие в состав белков с разной доменной архитектурой достоверно различаются?

Этапы

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2024

PFAM

1. Опишите семейство доменов

2. Построить карту локального сходства двух белков

3. Верно ли, что домены, входящие в состав белков с разной доменной архитектурой достоверно различаются?

Этапы

Учебная страница курса биоинформатики,
год поступления 2024