Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2021

Замечания при проверке

При одном условии: вы откроете статью и прочитаете, по крайне мере аннотацию этой статьи. И используете то, что поняли, в описании домена. Если вы читали только описание домена в Pfam, то на это и надо ссылаться.

Вот напрашивающиеся вопросы по таблице для обсуждения на странице результатов практ.11:

  1. Почему запрос к Uniprot выдал больше белков с доменом, чем указано в Pfam в выравнивании full?
  2. Появились ли новые доменные архитектуры? Проверить самому.
  3. Для какого процента белков надёжно подтверждено существование, т.е. они не "predicted"? Проверить самому а) процент из Swissprot (reviewed) б) процент белков с Protein evidence не равной predicted.
  4. Верно ли, что белки с одинаковой доменной архитектурой имеют примерно одинаковую длину? Проверить самому, построив гистограммы длин последовательностей. Если нет, то почему наблюдаемые различия длины?
  5. Почему названия некоторых белков "Uncharacterized protein", хотя у них та же доменная архитектура, что у других белков из таблицы, и примерно такая же длина?
  6. Продолжение предыдущего вопроса: почему по таблице одинаковые белки называются по разному? . Пример, из таблицы студента: 'Type III invasion protein" и "SepL/TyeA/HrpJ family type III secretion system gatekeeper". Проверить самому сходство двух последовательностей по всей длине можно выровняв две последовательности и определив параметры сходства (идентичность в выравнивании) или построив карту локального сходства Dot Plot.
  7. Появились ли белки из семейства в новых таксонах высокого порядка? Проверить самому.
  8. Иные вопросы.

участка с доменом с участков из первой последовательности, то как такое может быть?

Из ваших позиций 17 и 21 составил паттерн    S...[VL]  ( .   заменяет любую букву)
Поиск в JalView (Select => Find)  по этому  паттерну в колонках 13 - 23 (колонки должны быть выделены) показал результат близкий к  идеальному:  12 находок в позициях 17 - 21 в группе 1 (в ней 14 последовательностей) и только одна - вне группы 1 в тех же позициях (в группе 2).
Более длинные условия - слова или паттерны - лучше для разделения, т.к. в отдельной колонке может быть много случайного. Рядом я нашел слово с 15 поз. LNS, которое даёт идеальное разделение:) Не всегда так везёт, паттерны лучше.

В паттерне [VL] значит, что в позиции должен стоять либо валин V либо лейцин L. Можно указать кратность, т.е. тот же паттерн можно записать так

S.{3}[VL]

Кратность можно приписать любой букве или [] с буквами. Более того, можно задать такую кратность {2,4} что значить повтор от двух до четырех раз (т.е. 2, 3 или 4 повтора)

2021/2/pr11/notes (последним исправлял пользователь aba 2022-05-10 09:53:53)