Учебная страница курса биоинформатики,
год поступления 2021
Замечания при проверке
- Включить ссылку на статью при описании домена правильно.
При одном условии: вы откроете статью и прочитаете, по крайне мере аннотацию этой статьи. И используете то, что поняли, в описании домена. Если вы читали только описание домена в Pfam, то на это и надо ссылаться.
- Задание на скачивание таблицы из Uniprot я предложил а) для обучения этому, полезного в дальнейшем, методу; б) для того, чтобы студенты учились задавать простые вопросы про структурированные таблицы данных (Сервисы Uniprot позволяют создавать продуманные таблицы данных).
- Я не написал этого в задании, надеялся на ваше любопытство. Моя ошибка: зачёт - вас интересует больше.
Вот напрашивающиеся вопросы по таблице для обсуждения на странице результатов практ.11:
- Почему запрос к Uniprot выдал больше белков с доменом, чем указано в Pfam в выравнивании full?
- Появились ли новые доменные архитектуры? Проверить самому.
- Для какого процента белков надёжно подтверждено существование, т.е. они не "predicted"? Проверить самому а) процент из Swissprot (reviewed) б) процент белков с Protein evidence не равной predicted.
- Верно ли, что белки с одинаковой доменной архитектурой имеют примерно одинаковую длину? Проверить самому, построив гистограммы длин последовательностей. Если нет, то почему наблюдаемые различия длины?
- Почему названия некоторых белков "Uncharacterized protein", хотя у них та же доменная архитектура, что у других белков из таблицы, и примерно такая же длина?
- Продолжение предыдущего вопроса: почему по таблице одинаковые белки называются по разному? . Пример, из таблицы студента: 'Type III invasion protein" и "SepL/TyeA/HrpJ family type III secretion system gatekeeper". Проверить самому сходство двух последовательностей по всей длине можно выровняв две последовательности и определив параметры сходства (идентичность в выравнивании) или построив карту локального сходства Dot Plot.
- Появились ли белки из семейства в новых таксонах высокого порядка? Проверить самому.
- Иные вопросы.
- Dot Plot. Необходимо описание картинки. Длина каждой из сравниваемых последовательностей и координаты участков сходства между ними. Обсуждение. Как минимум, совпадают ли участки сходства - с доменами, или заметно больше доменов или заметно меньше доменов. Если в одной последовательности нет какого-то из доменов, указанного в другой последовательности, а на карте указан участок сходства
участка с доменом с участков из первой последовательности, то как такое может быть?
- Про особенности, отличающие подгруппы. Я не успел это подробно рассказать в лекции. Отличия по самой частой букве в одной колонке - не самое надёжное отличие. Хотя бы потому, что не всегда программа множественного выравнивания гарантирует то, что в колонке стоят гомологичные аминокислотные остатки. Надёжнее более длинные слова, консервативные в подгруппе. Пример моего комментария к работе студента.
Из ваших позиций 17 и 21 составил паттерн S...[VL] ( . заменяет любую букву) Поиск в JalView (Select => Find) по этому паттерну в колонках 13 - 23 (колонки должны быть выделены) показал результат близкий к идеальному: 12 находок в позициях 17 - 21 в группе 1 (в ней 14 последовательностей) и только одна - вне группы 1 в тех же позициях (в группе 2). Более длинные условия - слова или паттерны - лучше для разделения, т.к. в отдельной колонке может быть много случайного. Рядом я нашел слово с 15 поз. LNS, которое даёт идеальное разделение:) Не всегда так везёт, паттерны лучше.
В паттерне [VL] значит, что в позиции должен стоять либо валин V либо лейцин L. Можно указать кратность, т.е. тот же паттерн можно записать так
S.{3}[VL]
Кратность можно приписать любой букве или [] с буквами. Более того, можно задать такую кратность {2,4} что значить повтор от двух до четырех раз (т.е. 2, 3 или 4 повтора)