Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2023

1. Выберите семейство доменов из Pfam для работы

  1. Выбор домена Pfam на основе информация из Pfam на апрель 2023 год. Как и можно ли скачать подобную таблицу из Interpro пока неясно. В таблице есть колонки с числом белков с доменом и размер выборки seed по которой составлен профиль для поиска доменов во всех белках Uniprot.

[ список доменов на апр.2023]

2. Опишите семейство доменов

  1. Что включить в описание указано в задании. Данные про семейство есть в таблице, из которой вы выбирали семейство, но они устарели на год)
  2. Нужные данные на сегодня есть в Pfam и Interpro. Поиск http://pfam.xfam.org/ по имени домена или его коду (AC, вида PF..... точки - номер). Или в Interpro browse => by mewmber DB, Pfam и далее. На странице домена информация о домене доступна в меню слева.

  3. Proteins: reviewed = из Swissprot. Export справа позволяет скачивать список имён последовательностей и FASTA последовательности ПОЛНЫХ белков, а не доменов.
  4. Domain architectures позволяет скачать полные последовательности с указанными доменами, щёлкнув на число последовательностей и далее тот же Export. У каждой архитектуры есть и указан референсный белок, число снизу его длина в а.к.о.
  5. Taxonomy - Показывает таксономическое распределение белков с доменом на разных уровнях таксономии. При наведении курсора на таксон показывает число представителей; если это число - гиперссылка, то по ней можно скачать полные последовательности
  6. Structures - 3D структуры белков, содержащих домен, или только домена.
  7. Signature - показывает консервативные участки в выравнивании SEED с помощью LOGO. Jalview тоже умеет это показывать
  8. Alignment - по этой ссылке можно скачать выравнивание SEED. Может и другое какое-нибудь.

3. Опишите выравнивание seed с точки зрения гомологичности всех последовательностей или их подмножества

Терминология

Блок определяется подмножеством последовательностей и участком от позиции S (start) до позиции E (end) выравнивания. Если подмножество содержит K последовательностей соберем их в выравнивании сверху. Блок задаётся так (i)перечислением последовательностей, удобно их собрать так, чтобы шли от ти с 1-й по K-ю; (ii) участком позиции от S-той до E-той подряд.

Блок без гэпов это блок, в выравнивании которого нет НИ ОДНОГО гэпа

Уточнение Колонки блока в которых нет ни одной буквы - только символы гэпа - не в счёт!

В полном выравнивании их не может быть (за бессмысленностью).

В блоке содержащем не все последовательности, они могут появиться.

Проверка.

  1. Выделите блок мышью
  2. Правая кнопка мыши Selection => Output to text box => fasta => new window (предыдущее окно можно закрыть)

  3. Меню Edit => remove empty columns.

Блок достоверный, т.е. можно считать, что выравнивание в нем соответствует эволюционному, если

  1. он без гэпов
  2. первая позиция блока консервативна или функционально консервативна в блоке (а не во всем выравнивании)
  3. то же условие на последнюю позицию блока

Чем больше консервативных позиций в блоке, и чем чаще они идут в блоке, тем достоверность блока выше. Консервативность бывает абсолютной - одна и та же буква в колонке, и функциональной все а.к.о. в колонке принадлежат одной группе по свойствам. Например [ST], [KR], [ED], [FY], [AG], {LIVM] и др. Группы не абсолютны, их можно переопределять пользуясь весами сходства в матрице BLOSSUM

Достоверный блок максимален если

  1. нельзя добавить последовательность к блоку так, чтобы не уменьшить его достоверность
  2. нельзя расширить его с N или C конца так, чтобы не уменьшить его достоверность

JalView методы

У нас в Jalview открыто выравнивание. Как

перемещать последовательности вверх/вниз

выделить их и двигать стрелками вверх или вниз

Разбить последовательности на подмножества

выделить несколько соседних колонок, можно не подряд; select => make groups for selection; calculate => sort = by groups

Покрасить подмножество последовательностей

выделить его; правой кнопкой selection; create group; повторить и выбрать edit group => Color

Подмножество сохранить в отдельном окне

выделить его; правой кнопкой selection; output to text box => fasta; new window (предыдущее можно закрыть)

Как дублировать исходное окно для манипуляций

также: выделить всё Ctrl-a;правой кнопкой selection; output to text box => fasta; new window (предыдущее можно закрыть)

Перевыровнять последовательности в окне

edit => remove all gaps; web service => alignment, выбрать программу. Mafft - самый быстрый сервис, другие имеют свои преимущества

Этапы

1) Скачайте выравнивание seed со страницы семейства в Pfam. Скачанное выравнивание имеет имя SEED.ann. Расширение .ann не является правильным. Формат скачанного выравнивания называется multiple sequence format - расширение .msf.

Переименуйте файл с выравниванием с расширением .msf. Имя тоже стоит сделать говорящим.

2) Откройте выравнивание в Jalview. Поиграйте с раскраской разными способами.

3) Найдите максимальные достоверные блоки, включающие все последовательности. Самый консервативный с вашей точки зрения опишите в таблице 11-3.

4) Опишите один максимальный достоверный блок, включающий не все последовательности. Если есть другие максимальные блоки с тем же подмножеством последовательностей, то опишите их.

5) Опишите один участок выравнивания, в котором нет никаких достоверных подблоков, и потому маловероятно, что выравнивание на этом участке отражает ход эволюции.

7) сделайте вывод о выравнивании в отношении того насколько и в каких частях оно отражает гомологию последовательностей

4. Верно ли, что домены, входящие в состав белков с разной доменной архитектурой достоверно различаются?

Этапы

Выбирайте доменные архитектуры с небольшим числом последовательностей 10 - 20 или не сильно больше.

Одна из возможностей уменьшить число последовательностей в выравнивании - из почти совпадающих (идентичность больше порога, например, 90%) оставить одну: Edit => Remove redundancy

  1. На Pfam странице домена открываете список архитектур Domain Architectures.
  2. Выбираете архитектуру 1
  3. Скачиваете все последовательности (гиперссылка на их число). Это полноразмерные последовательности.
  4. Выравниваете эти последовательности в Jalview
  5. Находите границы вашего домена в выравнивании.
    1. Для этого находит границы домена в одной (например, 1й) последовательности по ссылке со страницы с архитектурой. На странице белка указаны домены в нём с координатами В ПОСЛЕДОВАТЕЛЬНОСТИ.
    2. Находите эту последовательность в выравнивании (удача - порядок последовательностей в выравнивании такой же, как на странице архитектуры
    3. Переводите эти координаты в координаты в выравнивании: от колонки X до колонки Y. Номер буквы в последовательности появляется снизу окошка выравнивания при наведении курсора на букву.
    4. Для контроля можете повторить для другой последовательности.
    5. Выделяете колонки от X до Y. Selection => Output to text box (fasta); охраняете в файле (arch.fasta).

  6. Повторяете поиск и вырезание домена для второй архитектуры.
  7. Выравнивание последовательностей доменов из двух архитектур.
    1. Добавляете последовательности домена второй архитектуры в конец файла arch. fasta.
    2. Открываете в Jalview => Edit=> remove all gaps.

    3. Web services => alignment, выравниваете.

  8. Проверьте, что в выравнивании белки с 1й доменной архитектурой расположены сверху, а со 2й -снизу. Вроде бы перестановок по дороге не было
  9. Найдите достоверные блоки в доменах с одной архитектурой, не расширяющиеся на вторую
  10. Составьте отчёт.

Всё делать в Jalview. Нужны знания возможностей Jalview и острый взгляд:).

Главная кнопка в Jalview Esc или Ctrl A. Эффект один - выделенным множеством становятся все последовательности. Иначе у вас может случайно оказаться выделенной одна последовательность, а многие команды относятся только к выделенному множеству.

Выделите небольшой участок (2 или немножко больше колонок) выравнивания с почти, но не совсем консервативными колонками. Select => Make groups for selection. Если появились достаточно крупные группы - Calculate => Sort => by GRoup. Став курсором на группу, правой кнопкой, selection => Edit group => Group color и выбираете вид раскраски. и смотрите, что консервативно в Этой группе, и не встречается в остальных. Это и есть различие.

Группы можно переопределить самому, если надо. Соберите нужные последовательности рядом. Перемещение - стрелочками. Выделите последовательности и создайте из них группу открыв selection правой кнопкой мыши.

5. Построить карту локального сходства двух белков

Используйте BLASTp Align two or more sequences на сайте NCBI.

Получение последовательностей двух белков, содержащих домен, но разной доменной архитектурой.

Можно поиграть с порогом E-value. Увеличивая его, чтобы увидеть участки более слабого сходства. Я пробовал вплоть до E = 100.

На странице с результатом выбираете Dot Plot и сохраняете его и включаете в отчёт (как рисунок или по гиперссылке)

Интерпретируйте результат. Помочь могут страницы Interpro, с которых скачивали последовательности. На них указаны домены и мотивы из разных БД.

2023/2/pr11/hints (последним исправлял пользователь vakulenko_julia 2024-05-06 18:48:47)