Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2021

Указания

1. Выберите семейство доменов из Pfam для анализа

Если знаете какие-нибудь интересные белки, то можете поискать в Pfam по ключевым словам или AC записи Uniprot (Jump to).

На странице домена проверьте размеры выборок seed и full (по ссылке alignment), доменные архитектуры

Если нет идей про белки и их домены - слепой выбор.

Browse => Families, выбираете букву. Открывается таблица с краткой инфо про домены. Выбираете и проверяете на сайте семейства домена.

2. Опишите семейство доменов

  1. Включите в отчёт название, ID, AC и функцию домена (стр. семейства доменов)
  2. Укажите число последовательностей (full) и число последовательностей в выравнивании seed (Alignment)
  3. Укажите число доменных архитектур с этим доменом (Architectures)
  4. Выберите две достаточно представленные доменные архитектуры и укажите какие именно выбрали, их названия и число белков с каждой из них (Architectures)
  5. Укажите число разных белков с доменом семейства, для которых известна 3D структура (structures)
  6. Укажите число белков с доменом по таксонам самого высокого ранга (species, открывается sunburst; если в семействе не слишком много белков, то удобнее Tree)
  7. Посмотрите на HMM профиль выравнивания и укажите дату создания (в начале файла) и число позиций (номера позиций указаны в первой колонке профиля)(Curation&profile). HMM profile иногда называют model. Чтобы посмотреть как выглядит файл с HMM профилем, download. Это текстовый файл. Откройте любым текстовым редактором, например, Word Pad.

На одну позицию приходится три строки.

В первой строке - веса за каждую из 20 букв в последовательности в этой позиции. Чем больше тем лучше, если <<0, то буква избегается в этой позиции. Числа - логарифмы весов. Точнее, логарифмы отношения правдоподобия

Во второй строке - веса за вставку этой буквы за текущей позицией.

В третьей, по существу, штрафы за делецию этой буквы.

3. Постройте карту локального сходства (Dot Plot) двух белков с доменом семейства, но с разной доменной архитектурой

Получение последовательности белка с выбранной архитектурой - 4е клика: Architectures => клик на имя белка => ещё раз на имя белка (под Summary) => в Uniprot выбираете формат fasta и сохраняете.

Открываете Blastp на сайте NCBI. Отмечаете Align two or more sequences. Вводите две последовательности в два окошка. BLAST. На странице с результатом выбираете Dot Plot и сохраняете. Можно поиграть с порогом E-value. Увеличивая его, чтобы увидеть участки более слабого сходства. Я пробовал вплоть до E = 100.

Из ответа на вопрос Софьи Фомичевой. У неё на карте кроме основной диагонали появилась дополнительная короткая диагональ.

 "Не простая карта.
 Проведите на карте вертикальную прямую через начало маленькой диагонали, горизонтальную - через её конец. Добавьте прямые - через точки пересечения этих прямых с диагоналями. Карта разобьётся на 3х3 = 9 прямоугольничков. 

Диагональ в  прямоугольничке свидетельствует о том, какой  участочек по вертикале похож на какой  участочек по горизонтали (по определению карты).

Обозначьте участочки буквами и напишите какой на какой похож согласно карте. 

Два   замечания, чтобы вы сумели разобраться.  
1) В белках бывают повторяющиеся последовательности - из-за дупликаций в эволюции. Не обязательно полностью совпадающие, но с достоверным сходством. Если они длинные, то могут быть из одного семейства доменов.  

2) Если последовательноcть A похожа на последовательность  A' (с определенным порогом сходства) и последовательность  A' похожа на последовательность A'' (с тем же порогом), то сходство между  A' и A'' может оказаться ниже порога." 

4. В выравнивании доменов семейства выделите на основании сходства две подгруппы доменов Pfam

В ответе - выравнивание, содержащее обе подгруппы и обоснование различий подгрупп и отличий от всех остальных доменов семейства.

Рекомендуемое число последовательностей в выравнивании для анализа - в пределах пары сотен. Чтобы была возможность просмотреть всё выравнивание. Но не менее нескольких десятков - иначе может быть проблема с выделением групп. Соответственно, выбирайте seed или full.

Одна из возможностей уменьшить число последовательностей в выравнивании - из почти совпадающих (идентичность больше порога, например, 90%) оставить одну: Edit => Remove redundancy

Всё делать в Jalview. Нужны знания возможностей Jalview и острый взгляд:).

Главная кнопка в Jalview Esc или Ctrl A. Эффект один - выделенным множеством становятся все последовательности. Иначе у вас может случайно оказаться выделенной одна последовательность, а многие команды относятся только к выделенному множеству.

На лекции будет демонстрация как выполнять это задание.

Выделите небольшой участок (2 или немножко больше колонок) выравнивания с почти, но не совсем консервативными колонками. Select => Make groups for selection. Если появились достаточно крупные группы - Calculate => Sort => by GRoup. Став курсором на группу, правой кнопкой, selection => Edit group => Group color и выбираете вид раскраски. и смотрите, что консервативно в Этой группе, и не встречается в остальных. Это и есть различие.

Группы можно переопределить самому, если надо. Соберите нужные последовательности рядом (не обязательно). Перемещение - стрелочками. Выделите последовательности и создайте из них группу открыв selection правой кнопкой мыши.

Другой, более технологичный вариант разбиения последовательностей на группы такой. Calculate => Tree .. => Average distance. Появляется окошко с филогенетическим деревом белков выравнивания. Щёлкаете мышкой - появляется вертикальная линия, отрезающая ветки от корня. Для каждой отрезанной ветки её листья выделяются в одну группу. Далее - как выше.

5. Сохраните таблицу со всеми белками из Uniprot с доменом семейства Pfam

Выбираете Advased, All из меню выбираете Cross-references => Family and domain databases => Pfam и в окошко вводите имя семейсnва доменов или AC вида PF.... => Search То же можно получить введя в окошко запроса запрос такого вида:

database:(type:pfam pf00145)

Получив результат, нажмите Columns и добавьте недостающие колонки. Колонку Pfam найдёте снизу страницы по ссылке Family and Domain. По таксономии не советую выбирать Taxonomic lineage (all) - потом не разобраться. А выбирайте понятные уровни - царство (Superkingdom), отдел (phylum), class и т.д.

В таблице сохраните колонки:

2021/2/pr11/hints (последним исправлял пользователь aba 2022-05-03 09:19:24)