Учебная страница курса биоинформатики,
год поступления 2021
Указания
1. Выберите семейство доменов из Pfam для анализа
Если знаете какие-нибудь интересные белки, то можете поискать в Pfam по ключевым словам или AC записи Uniprot (Jump to).
На странице домена проверьте размеры выборок seed и full (по ссылке alignment), доменные архитектуры
Если нет идей про белки и их домены - слепой выбор.
Browse => Families, выбираете букву. Открывается таблица с краткой инфо про домены. Выбираете и проверяете на сайте семейства домена.
2. Опишите семейство доменов
- Включите в отчёт название, ID, AC и функцию домена (стр. семейства доменов)
- Укажите число последовательностей (full) и число последовательностей в выравнивании seed (Alignment)
- Укажите число доменных архитектур с этим доменом (Architectures)
- Выберите две достаточно представленные доменные архитектуры и укажите какие именно выбрали, их названия и число белков с каждой из них (Architectures)
- Укажите число разных белков с доменом семейства, для которых известна 3D структура (structures)
- Укажите число белков с доменом по таксонам самого высокого ранга (species, открывается sunburst; если в семействе не слишком много белков, то удобнее Tree)
Посмотрите на HMM профиль выравнивания и укажите дату создания (в начале файла) и число позиций (номера позиций указаны в первой колонке профиля)(Curation&profile). HMM profile иногда называют model. Чтобы посмотреть как выглядит файл с HMM профилем, download. Это текстовый файл. Откройте любым текстовым редактором, например, Word Pad.
На одну позицию приходится три строки.
В первой строке - веса за каждую из 20 букв в последовательности в этой позиции. Чем больше тем лучше, если <<0, то буква избегается в этой позиции. Числа - логарифмы весов. Точнее, логарифмы отношения правдоподобия
- = ln (частота буквы в этой позиции в выравнивании seed/частота этой буквы в белках)
Во второй строке - веса за вставку этой буквы за текущей позицией.
В третьей, по существу, штрафы за делецию этой буквы.
3. Постройте карту локального сходства (Dot Plot) двух белков с доменом семейства, но с разной доменной архитектурой
Получение последовательности белка с выбранной архитектурой - 4е клика: Architectures => клик на имя белка => ещё раз на имя белка (под Summary) => в Uniprot выбираете формат fasta и сохраняете.
Открываете Blastp на сайте NCBI. Отмечаете Align two or more sequences. Вводите две последовательности в два окошка. BLAST. На странице с результатом выбираете Dot Plot и сохраняете. Можно поиграть с порогом E-value. Увеличивая его, чтобы увидеть участки более слабого сходства. Я пробовал вплоть до E = 100.
Из ответа на вопрос Софьи Фомичевой. У неё на карте кроме основной диагонали появилась дополнительная короткая диагональ. "Не простая карта. Проведите на карте вертикальную прямую через начало маленькой диагонали, горизонтальную - через её конец. Добавьте прямые - через точки пересечения этих прямых с диагоналями. Карта разобьётся на 3х3 = 9 прямоугольничков. Диагональ в прямоугольничке свидетельствует о том, какой участочек по вертикале похож на какой участочек по горизонтали (по определению карты). Обозначьте участочки буквами и напишите какой на какой похож согласно карте. Два замечания, чтобы вы сумели разобраться. 1) В белках бывают повторяющиеся последовательности - из-за дупликаций в эволюции. Не обязательно полностью совпадающие, но с достоверным сходством. Если они длинные, то могут быть из одного семейства доменов. 2) Если последовательноcть A похожа на последовательность A' (с определенным порогом сходства) и последовательность A' похожа на последовательность A'' (с тем же порогом), то сходство между A' и A'' может оказаться ниже порога."
4. В выравнивании доменов семейства выделите на основании сходства две подгруппы доменов Pfam
В ответе - выравнивание, содержащее обе подгруппы и обоснование различий подгрупп и отличий от всех остальных доменов семейства.
Рекомендуемое число последовательностей в выравнивании для анализа - в пределах пары сотен. Чтобы была возможность просмотреть всё выравнивание. Но не менее нескольких десятков - иначе может быть проблема с выделением групп. Соответственно, выбирайте seed или full.
Одна из возможностей уменьшить число последовательностей в выравнивании - из почти совпадающих (идентичность больше порога, например, 90%) оставить одну: Edit => Remove redundancy
Всё делать в Jalview. Нужны знания возможностей Jalview и острый взгляд:).
Главная кнопка в Jalview Esc или Ctrl A. Эффект один - выделенным множеством становятся все последовательности. Иначе у вас может случайно оказаться выделенной одна последовательность, а многие команды относятся только к выделенному множеству.
На лекции будет демонстрация как выполнять это задание.
Выделите небольшой участок (2 или немножко больше колонок) выравнивания с почти, но не совсем консервативными колонками. Select => Make groups for selection. Если появились достаточно крупные группы - Calculate => Sort => by GRoup. Став курсором на группу, правой кнопкой, selection => Edit group => Group color и выбираете вид раскраски. и смотрите, что консервативно в Этой группе, и не встречается в остальных. Это и есть различие.
Группы можно переопределить самому, если надо. Соберите нужные последовательности рядом (не обязательно). Перемещение - стрелочками. Выделите последовательности и создайте из них группу открыв selection правой кнопкой мыши.
Другой, более технологичный вариант разбиения последовательностей на группы такой. Calculate => Tree .. => Average distance. Появляется окошко с филогенетическим деревом белков выравнивания. Щёлкаете мышкой - появляется вертикальная линия, отрезающая ветки от корня. Для каждой отрезанной ветки её листья выделяются в одну группу. Далее - как выше.
5. Сохраните таблицу со всеми белками из Uniprot с доменом семейства Pfam
Выбираете Advased, All из меню выбираете Cross-references => Family and domain databases => Pfam и в окошко вводите имя семейсnва доменов или AC вида PF.... => Search То же можно получить введя в окошко запроса запрос такого вида:
database:(type:pfam pf00145)
Получив результат, нажмите Columns и добавьте недостающие колонки. Колонку Pfam найдёте снизу страницы по ссылке Family and Domain. По таксономии не советую выбирать Taxonomic lineage (all) - потом не разобраться. А выбирайте понятные уровни - царство (Superkingdom), отдел (phylum), class и т.д.
В таблице сохраните колонки:
- ID
- AC
- Название белка
- Принадлежит ли Swissprot или Trembl
- длина последовательности
- организм
- protein existence
- состав доменов Pfam в белке
- таксономия высшего уровня, на котором есть различия