Учебная страница курса биоинформатики,
год поступления 2014
Практикум 4. Задания.
Срок выполнения — утро 3 октября. Если не успеваете по уважительной причине, напишите об этом заранее, иначе причина будет считаться неуважительной!
В директорию "credits" копируйте протокол и два fasta-файла из четвёртого задания.
См. подсказки
Задание 1. Знакомство с геномом прокариотического организма
Занесите в протокол информацию о том, к какому роду, виду и штамму принадлежит выданный вам организм.
Скачайте записи банка RefSeq (все файлы с расширением gbk), относящиеся к выданному организму из базы данных полных геномов (адрес FTP-сервера: ftp.ncbi.nlm.nih.gov/genomes/Bacteria/, файлов может быть от одного до пяти).
- Занесите в протокол сведения о том, сколько файлов скачано и для каждого: имя файла, длина последовательности (см. в строке LOCUS) и её описание (см. в строке DEFINITION). Если файлов больше одного, лучше оформить эти сведения в виде таблицы, соответственно перенумеровав таблицы следующих заданий.
Задание 2. Знакомство с геном вашего белка
Найдите в одном из файлов с расширением gbk, относящихся к данному геному, запись, отвечающую вашему белку (см. в правом столбце таблицы), и заполните в протоколе таблицу 1. Вместо XXX напишите идентификатор белка, а вместо NNN – полное название организма.
Таблица 1. Ген белка XXX из генома организма NNN
Свойство |
Значение |
Код доступа (Accession) записи RefSeq |
... |
Метка локуса |
... |
GI |
... |
GeneID |
... |
Начало в геноме |
... |
Конец в геноме |
... |
Цепь (прямая или обратная) |
... |
Длина гена (в п.н.) |
... |
Длина белка (в аминокислотных остатках) |
... |
Описание белка |
... |
Задание 3. Другие файлы базы полных геномов
Скачайте все файлы, относящиеся к той же записи RefSeq, в которой нашёлся ваш белок, и имеющие расширение из трёх букв. Заполните таблицу 2. В последней колонке опишите, какого рода информацию содержит файл; если это не удаётся понять, пишите "неясно".
Таблица 2. Файлы, относящиеся к записи NC_0000000
Имя файла |
Текстовый/бинарный |
Формат (fasta/текстовая таблица/иной) |
Что содержит |
... |
... |
... |
... |
... |
... |
... |
... |
Задание 4
Создайте файл в fasta-формате, содержащий последовательность вашего белка (и только её!). Имя файла должно совпадать с основной частью (т.е. до точки) идентификатора белка и иметь расширение fasta (например, если идентификатор белка YP_012345.1, то имя файла должно быть YP_012345.fasta). Название последовательности должно совпадать с именем файла до расширения (например, "YP_012345", более ничего!), описание совпадать с описанием белка (продукта гена) в записи RefSeq. Напишите в протоколе, как вы создали этот файл.
Создайте файл в fasta-формате, содержащий последовательность гена вашего белка. Подходящие имя файла и имя последовательности подберите сами (но расширение – обязательно "fasta"). Обязательно проверьте, сверившись с генетическим кодом, что первые четыре-пять аминокислот вашего белка совпадают с закодированными в гене! Занесите в протокол всё, заслуживающее быть отмеченным.