Учебная страница курса биоинформатики,
год поступления 2021

Указания

1. Выберите семейство доменов из Pfam для анализа

Если знаете какие-нибудь интересные белки, то можете поискать в Pfam по ключевым словам или AC записи Uniprot (Jump to).

На странице домена проверьте размеры выборок seed и full (по ссылке alignment), доменные архитектуры

Если нет идей про белки и их домены - слепой выбор.

Browse => Families, выбираете букву. Открывается таблица с краткой инфо про домены. Выбираете и проверяете на сайте семейства домена.

2. Опишите семейство доменов

Включите в отчёт название, ID, AC и функцию домена (стр. семейства доменов)
Укажите число последовательностей (full) и число последовательностей в выравнивании seed (Alignment)
Укажите число доменных архитектур с этим доменом (Architectures)
Выберите две достаточно представленные доменные архитектуры и укажите какие именно выбрали, их названия и число белков с каждой из них (Architectures)
Укажите число разных белков с доменом семейства, для которых известна 3D структура (structures)
Укажите число белков с доменом по таксонам самого высокого ранга (species, открывается sunburst; если в семействе не слишком много белков, то удобнее Tree)
Посмотрите на HMM профиль выравнивания и укажите дату создания (в начале файла) и число позиций (номера позиций указаны в первой колонке профиля)(Curation&profile). HMM profile иногда называют model. Чтобы посмотреть как выглядит файл с HMM профилем, download. Это текстовый файл. Откройте любым текстовым редактором, например, Word Pad.

На одну позицию приходится три строки.

В первой строке - веса за каждую из 20 букв в последовательности в этой позиции. Чем больше тем лучше, если <<0, то буква избегается в этой позиции. Числа - логарифмы весов. Точнее, логарифмы отношения правдоподобия

= ln (частота буквы в этой позиции в выравнивании seed/частота этой буквы в белках)

Во второй строке - веса за вставку этой буквы за текущей позицией.

В третьей, по существу, штрафы за делецию этой буквы.

3. Постройте карту локального сходства (Dot Plot) двух белков с доменом семейства, но с разной доменной архитектурой

Получение последовательности белка с выбранной архитектурой - 4е клика: Architectures => клик на имя белка => ещё раз на имя белка (под Summary) => в Uniprot выбираете формат fasta и сохраняете.

Открываете Blastp на сайте NCBI. Отмечаете Align two or more sequences. Вводите две последовательности в два окошка. BLAST. На странице с результатом выбираете Dot Plot и сохраняете. Можно поиграть с порогом E-value. Увеличивая его, чтобы увидеть участки более слабого сходства. Я пробовал вплоть до E = 100.

Из ответа на вопрос Софьи Фомичевой. У неё на карте кроме основной диагонали появилась дополнительная короткая диагональ.

 "Не простая карта.
 Проведите на карте вертикальную прямую через начало маленькой диагонали, горизонтальную - через её конец. Добавьте прямые - через точки пересечения этих прямых с диагоналями. Карта разобьётся на 3х3 = 9 прямоугольничков. 

Диагональ в  прямоугольничке свидетельствует о том, какой  участочек по вертикале похож на какой  участочек по горизонтали (по определению карты).

Обозначьте участочки буквами и напишите какой на какой похож согласно карте. 

Два   замечания, чтобы вы сумели разобраться.  
1) В белках бывают повторяющиеся последовательности - из-за дупликаций в эволюции. Не обязательно полностью совпадающие, но с достоверным сходством. Если они длинные, то могут быть из одного семейства доменов.  

2) Если последовательноcть A похожа на последовательность  A' (с определенным порогом сходства) и последовательность  A' похожа на последовательность A'' (с тем же порогом), то сходство между  A' и A'' может оказаться ниже порога."

4. В выравнивании доменов семейства выделите на основании сходства две подгруппы доменов Pfam

В ответе - выравнивание, содержащее обе подгруппы и обоснование различий подгрупп и отличий от всех остальных доменов семейства.

Рекомендуемое число последовательностей в выравнивании для анализа - в пределах пары сотен. Чтобы была возможность просмотреть всё выравнивание. Но не менее нескольких десятков - иначе может быть проблема с выделением групп. Соответственно, выбирайте seed или full.

Одна из возможностей уменьшить число последовательностей в выравнивании - из почти совпадающих (идентичность больше порога, например, 90%) оставить одну: Edit => Remove redundancy

Всё делать в Jalview. Нужны знания возможностей Jalview и острый взгляд:).

Главная кнопка в Jalview Esc или Ctrl A. Эффект один - выделенным множеством становятся все последовательности. Иначе у вас может случайно оказаться выделенной одна последовательность, а многие команды относятся только к выделенному множеству.

На лекции будет демонстрация как выполнять это задание.

Выделите небольшой участок (2 или немножко больше колонок) выравнивания с почти, но не совсем консервативными колонками. Select => Make groups for selection. Если появились достаточно крупные группы - Calculate => Sort => by GRoup. Став курсором на группу, правой кнопкой, selection => Edit group => Group color и выбираете вид раскраски. и смотрите, что консервативно в Этой группе, и не встречается в остальных. Это и есть различие.

Группы можно переопределить самому, если надо. Соберите нужные последовательности рядом (не обязательно). Перемещение - стрелочками. Выделите последовательности и создайте из них группу открыв selection правой кнопкой мыши.

Другой, более технологичный вариант разбиения последовательностей на группы такой. Calculate => Tree .. => Average distance. Появляется окошко с филогенетическим деревом белков выравнивания. Щёлкаете мышкой - появляется вертикальная линия, отрезающая ветки от корня. Для каждой отрезанной ветки её листья выделяются в одну группу. Далее - как выше.

5. Сохраните таблицу со всеми белками из Uniprot с доменом семейства Pfam

Выбираете Advased, All из меню выбираете Cross-references => Family and domain databases => Pfam и в окошко вводите имя семейсnва доменов или AC вида PF.... => Search То же можно получить введя в окошко запроса запрос такого вида:

database:(type:pfam pf00145)

Получив результат, нажмите Columns и добавьте недостающие колонки. Колонку Pfam найдёте снизу страницы по ссылке Family and Domain. По таксономии не советую выбирать Taxonomic lineage (all) - потом не разобраться. А выбирайте понятные уровни - царство (Superkingdom), отдел (phylum), class и т.д.

В таблице сохраните колонки:

ID
AC
Название белка
Принадлежит ли Swissprot или Trembl
длина последовательности
организм
protein existence
состав доменов Pfam в белке
таксономия высшего уровня, на котором есть различия

2021/2/pr11/hints (последним исправлял пользователь aba 2022-05-03 09:19:24)

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2021

Указания

1. Выберите семейство доменов из Pfam для анализа

2. Опишите семейство доменов

3. Постройте карту локального сходства (Dot Plot) двух белков с доменом семейства, но с разной доменной архитектурой

4. В выравнивании доменов семейства выделите на основании сходства две подгруппы доменов Pfam

5. Сохраните таблицу со всеми белками из Uniprot с доменом семейства Pfam

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2021

Указания

1. Выберите семейство доменов из Pfam для анализа

2. Опишите семейство доменов

3. Постройте карту локального сходства (Dot Plot) двух белков с доменом семейства, но с разной доменной архитектурой

4. В выравнивании доменов семейства выделите на основании сходства две подгруппы доменов Pfam

5. Сохраните таблицу со всеми белками из Uniprot с доменом семейства Pfam

Учебная страница курса биоинформатики,
год поступления 2021