Kodomo

Пользователь

МФК "Биоинформатика", весна 2021

Задания по лекции 9

Для зачёта по лекции 9 достаточно выполнить любое из двух заданий. Выполнение задания 2 даёт зачёт сразу по лекции 9 и по лекции 3 (имеет смысл для тех, кто не сделал задание по лекции 3).

Отчёты присылайте на адрес sas@belozersky.msu.ru Просьба подписываться в сопроводительных письмах и указывать адекватную тему e-mail'а.

Задание 1

Задание можно выполнять, используя веб-интерфейc к программе BLAST на одном из трёх сайтов:

Важно! Поиск нужно осуществлять по банку Swiss-Prot (он же UniProtKB/Swiss-Prot ), в двух из трёх случаев по умолчанию стоит другой банк, будьте внимательны!

  1. Выберите один из фрагментов белковых последовательностей (обязательно укажите в отчёте, какой фрагмент был выбран).

  2. Найдите данный фрагмент в банке Swiss-Prot. Ответьте на вопросы:
    • из какого белка данный фрагмент? (идентификатор в Swiss-Prot, вида XXXX_YYYYY, и краткое описание данного белка). Желательно перевести описание на русский язык.

    • каковы координаты фрагмента в полноразмерном белке (начало – конец)?

    • из какого организма белок (латинское и, желательно, русское название)?
  3. Найдите гомологи найденного на предыдущем шаге белка в банке Swiss-Prot. Ответьте на вопросы:
    • сколько всего гомологов нашлось?
    • есть ли гомологи, для которых аннотирована другая функция?
    • для одного из гомологов (желательно с другой функцией, если таких нет, то не из верхней пятёрки):
      • что за белок? (идентификатор в Swiss-Prot, краткое описание, из какого организма).
      • координаты выровненных участков (участок от-до в исходном белке выровнен с учаcтком от-до в гомологе).
      • характеристики выравнивания: вес (Score) обычный и в битах, число и процент совпадений, E-value (Expected).
  4. (* – дополнительно). Проделайте поиск гомологов из предыдущего упражнения на всех трёх сайтах. Опишите свои впечатления: что на каком сайте сделано удобнее или, наоборот, хуже.

  5. (* – дополнительно). Попробуйте "поиграть" с параметрами программы BLAST (матрица замен, штрафы за гэпы, длина слова): что меняется в списке находок и/или в характеристиках выравниваний?

Указания

  1. Фрагменты лежат в fasta-формате: строка с последовательностью фрагмента находится после строки с условным идентификатором фрагмента.

Например, вы видите такое:

>abc
AAAATTTTGGGG

значит, "abc" — идентификатор (указываете в отчёте: "Я выбрал фрагмент abc"), а AAAATTTTGGGG — последовательность фрагмента, которую вам нужно искать в банке.

  1. Разберитесь, куда копировать последовательность и как задать нужный банк (в вашем случае это Swiss-Prot). Получив результат поиска, нужно для первой (если их несколько) находки по гиперссылкам искать нужную информацию.

  2. Теперь вам нужно запустить BLAST, используя в качестве запроса ("Query") всю последовательность найденного на предыдущем шаге белка.
    • число находок, если оно большое, не всегда легко определить... но всё же попытайтесь! Если совсем никак, попробуйте другой сайт.
    • в первом приближении можно считать, что функция белка из Swiss-Prot закодирована в первой части его идентификатора (если идентификатор XXXX_YYYYY, то "XXXX" — это код функции). Если использовать BLAST на NCBI, то идентификаторы в списке находок не видны, зато видны рекомендуемые полные названия (после "RecName; Full="), судите о функции по ним.

    • внимательнее с координатами выровненных участков: одно выравнивание обычно занимает несколько "блоков", нужны координаты не из отдельных блоков, а из всего выравнивания (от начала первого блока до конца последнего).
    • если написано "Score = 333 bits (854)", то в скобках — обычный вес. В данном случае вес в битах 333, а обычный — 854.

Задание 2

  1. Выберите одно из названий белков из задания 1 к лекции 6 (можно то же, с которым вы делали то задание). Найдите в Uniprot все белки человека с этим названием. Указание: воспользуйтесь Advanced search на сайте Uniprot, название белка ищите в Protein name [DE], организм Homo sapiens — в поле Organism [OS]. Укажите, сколько всего белков нашлось и сколько из них аннотированных (Reviewed).

  2. Выберите один из найденных аннотированных (Reviewed) белков, укажите его AC (в таблице находок — в колонке Entry) и ID (в колонке Entry name).

  3. Пользуясь BLAST'ом на сайте NCBI, найдите гомологи выбранного белка в банке Swiss-Prot:

    1. Среди белков человека;
    2. Среди белков позвоночных (Vertebrata), исключая человека;
    3. Среди белков животных (Metazoa), исключая позвоночных;
    4. Среди белков бактерий (Bacteria).

Для каждого поиска указывайте:

Указания. В поле для запроса cкопируйте AC своего белка. Среди банков выберите Swiss-Prot. Разберитесь, как пользоваться полем Organism (если в поле Organism начать вводить латинское название таксона, например "Homo sapiens" или "Bacteria", сервис подскажет возможные варианты и надо выбрать нужный), чекбоксом Exclude и "плюсиком" рядом. Нажмите кнопку BLAST и дождитесь результата. Все нужные сведения, кроме, возможно, организма, имеются в списке, отрывающемся по умолчанию (вкладка Descriptions). Организм, возможно, придётся поискать (через гиперссылку в колонке Accession или во вкладке Aignments).