Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2024

PFAM

1. Опишите семейство доменов

  1. Что включить в описание, указано в задании. Данные про семейство есть в таблице, из которой вы выбирали семейство, но они устарели на два года)
  2. Нужные данные на сегодня есть в Pfam, интерфейс к которому — на сайте Interpro. Поиск https://www.ebi.ac.uk/interpro/entry/pfam/ по словам из имени (summary name) домена или по его AC (вида PF....., вместо точек цифры; к сожалению, поиск по ID на данный момент не проходит). На странице домена информация о домене доступна в меню слева.

  3. Proteins: Reviewed = из Swissprot. Download справа позволяет скачивать список имён последовательностей и FASTA последовательности ПОЛНЫХ белков, а не доменов.
  4. Domain architectures позволяет скачать полные последовательности с данной архитектурой (= последовательностью доменов), щёлкнув на гиперссылку "There are XXX proteins" и далее Download. У каждой архитектуры есть и указан референсный белок, число снизу — его длина в а.к.о.
  5. Taxonomy показывает таксономическое распределение белков с доменом на разных уровнях таксономии. При наведении курсора на таксон показывает число представителей; если это число - гиперссылка, то по ней можно скачать полные последовательности
  6. Structures — 3D структуры белков, содержащих домен, или только домена.
  7. Profile HMM показывает консервативные участки в выравнивании SEED с помощью LOGO. Jalview тоже умеет это показывать
  8. AlphaFold — предсказанные нейросетью структуры

  9. Alignment — по этой ссылке можно скачать выравнивание SEED. Может и другое какое-нибудь.

2. Построить карту локального сходства двух белков

Используйте BLASTp Align two or more sequences на сайте NCBI.

Получение последовательностей двух белков, содержащих домен, но разной доменной архитектурой.

Можно поиграть с порогом E-value. Увеличивая его, чтобы увидеть участки более слабого сходства.

На странице с результатом выбираете Dot Plot и сохраняете его и включаете в отчёт (как рисунок или по гиперссылке)

Интерпретируйте результат. Помочь могут страницы Interpro, с которых скачивали последовательности. На них указаны домены и мотивы из разных БД.

3. Верно ли, что домены, входящие в состав белков с разной доменной архитектурой достоверно различаются?

Этапы

Выбирайте доменные архитектуры с небольшим числом последовательностей 10-20 или не сильно больше.

Одна из возможностей уменьшить число последовательностей в выравнивании - из почти совпадающих (идентичность больше порога, например, 90%) оставить одну: Edit => Remove redundancy

  1. На Pfam странице домена открываете вкладку Domain Architectures.
  2. Выбираете архитектуру 1
  3. Скачиваете все последовательности (гиперссылка на их число, щелкнуть на "There are XXX proteins with this architecture"). Это полноразмерные последовательности.
  4. Выравниваете эти последовательности в Jalview
  5. Находите границы вашего домена в выравнивании.
    1. Для этого находит границы домена в одной (например, 1й) последовательности по ссылке со страницы с архитектурой. На странице белка указаны домены в нём с координатами В ПОСЛЕДОВАТЕЛЬНОСТИ.
    2. Находите эту последовательность в выравнивании (удача - порядок последовательностей в выравнивании такой же, как на странице архитектуры
    3. Переводите эти координаты в координаты в выравнивании: от колонки X до колонки Y. Номер буквы в последовательности появляется снизу окошка выравнивания при наведении курсора на букву.
    4. Для контроля можете повторить для другой последовательности.
    5. Выделяете колонки от X до Y. Selection => Output to text box (fasta); охраняете в файле (arch.fasta).

  6. Повторяете поиск и вырезание домена для второй архитектуры.
  7. Выравнивание последовательностей доменов из двух архитектур.
    1. Добавляете последовательности домена второй архитектуры в конец файла arch. fasta.
    2. Открываете в Jalview => Edit=> remove all gaps.

    3. Web services => alignment, выравниваете.

  8. Проверьте, что в выравнивании белки с 1й доменной архитектурой расположены сверху, а со 2й -снизу. Вроде бы перестановок по дороге не было
  9. Найдите достоверные блоки в доменах с одной архитектурой, не расширяющиеся на вторую
  10. Составьте отчёт.

В ответе - выравнивание, содержащее обе подгруппы и координаты достоверных блоков, если нашлись.

Рекомендуемое число последовательностей в выравнивании для анализа - в пределах пары сотен. Чтобы была возможность просмотреть всё выравнивание. Но не менее пары десятков. Соответственно, выбирайте seed или full.

Всё делать в Jalview. Нужны знания возможностей Jalview и острый взгляд:).

Главная кнопка в Jalview Esc или Ctrl A. Эффект один - выделенным множеством становятся все последовательности. Иначе у вас может случайно оказаться выделенной одна последовательность, а многие команды относятся только к выделенному множеству.

Выделите небольшой участок (2 или немножко больше колонок) выравнивания с почти, но не совсем консервативными колонками. Select => Make groups for selection. Если появились достаточно крупные группы - Calculate => Sort => by GRoup. Став курсором на группу, правой кнопкой, selection => Edit group => Group color и выбираете вид раскраски. и смотрите, что консервативно в Этой группе, и не встречается в остальных. Это и есть различие.

Группы можно переопределить самому, если надо. Соберите нужные последовательности рядом. Перемещение - стрелочками. Выделите последовательности и создайте из них группу открыв selection правой кнопкой мыши.

2024/2/pr12/hints (последним исправлял пользователь sas 2025-04-29 08:59:44)