Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2018

Практикум 5. Задание

0. Подготовка. Скачивание файла с геномом вашей бактерии/археи

  1. В папке term1 создайте папку block2, а в ней папку pr5 для хранения файлов этого практикума.

  2. В таблице найдите идентификатор белка, выданного Вам. С этим белком вы будете работать в следующих семестрах, поэтому почти всегда, когда будет говорится ваш белок – будет подразумеваться именно этот белок.

  3. Найдите свой белок в базе данных NCBI. Для этого зайдите на сайт NCBI. В строку поиска введите идентификатор белка, а слева выберите тип данных, по которому проводить поиск - Protein.

  4. Перейдите на страницу нуклеотидной записи, из которой получен белок. Для этого в записи о Вашем белке найдите квалификатор (поле) DBSOURCE ("database source", т.е. источник, откуда получена последовательность), перейдите по ссылке.

  5. Включите отображение последовательностей в записи. Для этого В правом верхнем углу найдите поле опций (серый прямоугольник) Customize view. Поставьте галочку на Show sequence (показать последовательность) если она не стоит и нажмите Update View.

  6. Сохраните файл с нуклеотидной записью. Для этого щелкните мышью на ссылку Send, находящуюся в верхней части окна записи. Выберите опцию Complete record, пункт назначения - File, формат оставьте стоящий по умолчанию: GenBank. Нажмите на клавишу Create File, чтобы начать скачивание.

1. Создание файла с последовательностью белка по нуклеотидной записи

  1. С помощью текстового поиска найдите описание и последовательность своего белка в скачанном файле.
  2. Создайте файл с последовательностью Вашего белка в формате FastA. Требование к этому файлу:
    • Название файла - XXX_pr5.fasta, где XXX - идентификатор выданного белка (например, AKF90774.1). Пример названия: AKF90774.1_pr5.fasta.

    • Кодировка файла - ASCII.
    • Кодировка концов строк - Unix, т.е. одним символом перевода строки.
    • В качестве идентификатора последовательности должен быть идентификатор белка.
    • Описание последовательности должно совпадать с описанием вашего белка - текст внутри кавычек из поля product. Обратите внимание, описание белка может занимать несколько строк, Вам нужно сделать из них одну. Обрамляющие кавычки в описание включать не надо!

    • Последовательность белка должна быть приведена строго большими латинскими буквами в одну колонку (без пробелов) шириной 60 символов. То есть, если длина вашего белка - 100 а.к., в первой строчке после заголовка должно быть 60 букв, во второй - 40 букв.
    • Файл не должен содержать никаких лишних пустых строк, в том числе в конце файла (т.е. он должен кончаться на один символ перевода строки).

На самом деле требования к FastA файлам не такие строгие. Но Вам будет полезно аккуратно оформить хотя бы один файл (вдохновился вашими HTML страничкам), заодно потренируетесь работать с Far. К тому же, такие файлы гораздо проще проверять автоматически.

Вообще, файл с последовательностью белка в FastA формате, конечно же, можно получить намного проще. :)

2. Получение информации о белке из NCBI и Uniprot.

  1. Заполните форму с информацией по Вашему белку.

  2. На следующем занятии (после проверки ваших данных) Вы будете создавать веб-страничку о своем белке, поэтому постарайтесь вовремя предоставить данные через форму для проверки!
  3. Всю информацию для формы нужно получить из нуклеотидной записи. Единственное исключение - название белка. Его нужно будет получить из базы Uniprot. Для этого на сайте Uniprot перейдите во вкладку "Retrieve/ID mapping", введите идентификатор вашего белка в окошко 1 и выберите тип идентификатора "EMBL/GenBank/DDBJ CDS" (список "From"). Потом жмите "Submit" и изучайте столбец "Protein names". Достаточно привести только основной вариант названия (первое, что выделено жирным шрифтом). Его же Вам надо будет перевести на русский язык.

Срок выполнения заданий – начало следующего занятия у первой группы. Это означает, что к этому моменту (9 утра 12 октября): (1) файл с последовательностью выданного белка в формате FastA должен лежать в директории H:\term1\block2\pr5 и (2) форма со сведениями о выданном белке должна быть заполнена.

И не забудьте записаться в очередь на проверку! Штрафы за опоздание выставляются автоматически на основании очереди.