Учебная страница курса биоинформатики,
год поступления 2018
Практикум 5. Задание
0. Подготовка. Скачивание файла с геномом вашей бактерии/археи
В папке term1 создайте папку block2, а в ней папку pr5 для хранения файлов этого практикума.
В таблице найдите идентификатор белка, выданного Вам. С этим белком вы будете работать в следующих семестрах, поэтому почти всегда, когда будет говорится ваш белок – будет подразумеваться именно этот белок.
Найдите свой белок в базе данных NCBI. Для этого зайдите на сайт NCBI. В строку поиска введите идентификатор белка, а слева выберите тип данных, по которому проводить поиск - Protein.
Перейдите на страницу нуклеотидной записи, из которой получен белок. Для этого в записи о Вашем белке найдите квалификатор (поле) DBSOURCE ("database source", т.е. источник, откуда получена последовательность), перейдите по ссылке.
Включите отображение последовательностей в записи. Для этого В правом верхнем углу найдите поле опций (серый прямоугольник) Customize view. Поставьте галочку на Show sequence (показать последовательность) если она не стоит и нажмите Update View.
Сохраните файл с нуклеотидной записью. Для этого щелкните мышью на ссылку Send, находящуюся в верхней части окна записи. Выберите опцию Complete record, пункт назначения - File, формат оставьте стоящий по умолчанию: GenBank. Нажмите на клавишу Create File, чтобы начать скачивание.
1. Создание файла с последовательностью белка по нуклеотидной записи
- С помощью текстового поиска найдите описание и последовательность своего белка в скачанном файле.
- Создайте файл с последовательностью Вашего белка в формате FastA. Требование к этому файлу:
Название файла - XXX_pr5.fasta, где XXX - идентификатор выданного белка (например, AKF90774.1). Пример названия: AKF90774.1_pr5.fasta.
- Кодировка файла - ASCII.
- Кодировка концов строк - Unix, т.е. одним символом перевода строки.
- В качестве идентификатора последовательности должен быть идентификатор белка.
Описание последовательности должно совпадать с описанием вашего белка - текст внутри кавычек из поля product. Обратите внимание, описание белка может занимать несколько строк, Вам нужно сделать из них одну. Обрамляющие кавычки в описание включать не надо!
- Последовательность белка должна быть приведена строго большими латинскими буквами в одну колонку (без пробелов) шириной 60 символов. То есть, если длина вашего белка - 100 а.к., в первой строчке после заголовка должно быть 60 букв, во второй - 40 букв.
- Файл не должен содержать никаких лишних пустых строк, в том числе в конце файла (т.е. он должен кончаться на один символ перевода строки).
На самом деле требования к FastA файлам не такие строгие. Но Вам будет полезно аккуратно оформить хотя бы один файл (вдохновился вашими HTML страничкам), заодно потренируетесь работать с Far. К тому же, такие файлы гораздо проще проверять автоматически.
Вообще, файл с последовательностью белка в FastA формате, конечно же, можно получить намного проще.
2. Получение информации о белке из NCBI и Uniprot.
Заполните форму с информацией по Вашему белку.
- На следующем занятии (после проверки ваших данных) Вы будете создавать веб-страничку о своем белке, поэтому постарайтесь вовремя предоставить данные через форму для проверки!
Всю информацию для формы нужно получить из нуклеотидной записи. Единственное исключение - название белка. Его нужно будет получить из базы Uniprot. Для этого на сайте Uniprot перейдите во вкладку "Retrieve/ID mapping", введите идентификатор вашего белка в окошко 1 и выберите тип идентификатора "EMBL/GenBank/DDBJ CDS" (список "From"). Потом жмите "Submit" и изучайте столбец "Protein names". Достаточно привести только основной вариант названия (первое, что выделено жирным шрифтом). Его же Вам надо будет перевести на русский язык.
Срок выполнения заданий – начало следующего занятия у первой группы. Это означает, что к этому моменту (9 утра 12 октября): (1) файл с последовательностью выданного белка в формате FastA должен лежать в директории H:\term1\block2\pr5 и (2) форма со сведениями о выданном белке должна быть заполнена.
И не забудьте записаться в очередь на проверку! Штрафы за опоздание выставляются автоматически на основании очереди.