МФК "Биоинформатика", весна 2023
Задания по лекции 3
Для зачёта достаточно выполнить любое из двух заданий.
Отчёты присылайте на адрес sas@belozersky.msu.ru Просьба подписываться в сопроводительных письмах и указывать адекватную тему e-mail'а.
Дедлайн — утро 15 марта 2023.
Задание 1
Задание можно выполнять, используя веб-интерфейc к программе BLAST на одном из трёх сайтов:
NCBI https://blast.ncbi.nlm.nih.gov/Blast.cgi , далее по ссылке "Protein BLAST".
Uniprot https://www.uniprot.org/blast/
Важно! Поиск нужно осуществлять по банку Swiss-Prot (он же UniProtKB/Swiss-Prot ), в двух из трёх случаев по умолчанию стоит другой банк, будьте внимательны!
Выберите один из фрагментов белковых последовательностей (обязательно укажите в отчёте, какой фрагмент был выбран).
- Найдите данный фрагмент в банке Swiss-Prot. Ответьте на вопросы:
из какого белка данный фрагмент? (идентификатор в Swiss-Prot, вида XXXX_YYYYY, и краткое описание данного белка). Желательно перевести описание на русский язык.
каковы координаты фрагмента в полноразмерном белке (начало – конец)?
- из какого организма белок (латинское и, желательно, русское название)?
- Найдите гомологи найденного на предыдущем шаге белка в банке Swiss-Prot. Ответьте на вопросы:
- сколько всего гомологов нашлось?
- есть ли гомологи, для которых аннотирована другая функция?
- для одного из гомологов (желательно с другой функцией, если таких нет, то не из верхней пятёрки):
- что за белок? (идентификатор в Swiss-Prot, краткое описание, из какого организма).
- координаты выровненных участков (участок от-до в исходном белке выровнен с учаcтком от-до в гомологе).
- характеристики выравнивания: вес (Score) обычный и в битах, число и процент совпадений, E-value (Expected).
(* – дополнительно). Проделайте поиск гомологов из предыдущего упражнения на всех трёх сайтах. Опишите свои впечатления: что на каком сайте сделано удобнее или, наоборот, хуже.
(* – дополнительно). Попробуйте "поиграть" с параметрами программы BLAST (матрица замен, штрафы за гэпы, длина слова): что меняется в списке находок и/или в характеристиках выравниваний?
Указания
- Фрагменты лежат в fasta-формате: строка с последовательностью фрагмента находится после строки с условным идентификатором фрагмента.
Например, вы видите такое:
>abc AAAATTTTGGGG
значит, "abc" — идентификатор (указываете в отчёте: "Я выбрал фрагмент abc"), а AAAATTTTGGGG — последовательность фрагмента, которую вам нужно искать в банке.
Разберитесь, куда копировать последовательность и как задать нужный банк (в вашем случае это Swiss-Prot). Получив результат поиска, нужно для первой (если их несколько) находки по гиперссылкам искать нужную информацию.
- Теперь вам нужно ещё раз запустить BLAST, теперь используя в качестве запроса ("Query") всю последовательность найденного на предыдущем шаге белка.
- число находок, если оно большое, не всегда легко определить... но всё же попытайтесь! Если совсем никак, попробуйте другой сайт.
в первом приближении можно считать, что функция белка из Swiss-Prot закодирована в первой части его идентификатора (если идентификатор XXXX_YYYYY, то "XXXX" — это код функции). Если использовать BLAST на NCBI, то идентификаторы в списке находок не видны, зато видны рекомендуемые полные названия (после "RecName; Full="), судите о функции по ним.
- внимательнее с координатами выровненных участков: одно выравнивание обычно занимает несколько "блоков", нужны координаты не из отдельных блоков, а из всего выравнивания (от начала первого блока до конца последнего).
если написано "Score = 333 bits (854)", то в скобках — обычный вес. В данном случае вес в битах 333, а обычный — 854.
Задание 2
- Выберите одно из названий белков из следующего списка:
- Пепсин
- Трипсин
- Миоглобин
- Лизоцим
- Родопсин
- Инсулин
- Ещё какого-нибудь известного вам
Найдите в Uniprot все белки человека с этим названием. Указания. Выясните, как пишется название белка по-английски (хороший способ: найти статью об этом белке в русской Википедии и затем перейти по ссылке на соответствующую английскую статью). Воспользуйтесь Advanced search на сайте Uniprot, название белка ищите в Protein name [DE], организм Homo sapiens — в поле Organism [OS]. В отчёте приведите: детали поиска (какое слово куда писали и что потом выбирали), сколько всего белков с подобным названием нашлось и сколько из них аннотированных (Reviewed).
Выберите один из найденных аннотированных (Reviewed) белков, укажите его AC (в таблице находок — в колонке Entry) и ID (в колонке Entry name).
Пользуясь BLAST'ом на сайте NCBI, найдите гомологи выбранного белка в банке Swiss-Prot:
- Среди белков человека;
- Среди белков позвоночных (Vertebrata), исключая человека;
- Среди белков животных (Metazoa), исключая позвоночных;
- Среди белков бактерий (Bacteria).
Для каждого поиска указывайте:
- сколько всего находок (если находок слишком много чтобы их непосредственно пересчитать, то поищите, на странице с результатом есть эта информация, хоть она и не сразу бросается в глаза!);
идентификатор (Accession) лучшей находки и её рекомендуемое полное имя (после "RecName: Full="), для b, c, d — из какого организма этот белок (желательно указать и латинское, и русское названия, Google в помощь);
- характеристики выравнивания с лучшей находкой: вес в битах, E-value, процент покрытия последовательности-запроса, процент совпадающих букв.
Указания. В поле для запроса cкопируйте Accession своего белка. Среди банков выберите Swiss-Prot. Разберитесь, как пользоваться полем Organism (если в поле Organism начать вводить латинское название таксона, например "Homo sapiens" или "Bacteria", сервис подскажет возможные варианты и надо выбрать нужный), чекбоксом Exclude и "плюсиком" рядом. Нажмите кнопку BLAST и дождитесь результата. Все нужные сведения, кроме, возможно, организма, имеются в списке, отрывающемся по умолчанию (вкладка Descriptions). Организм, возможно, придётся поискать (через гиперссылку в колонке Accession или во вкладке Alignments).