Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2014

Практикум 4. Задания.

Срок выполнения — утро 3 октября. Если не успеваете по уважительной причине, напишите об этом заранее, иначе причина будет считаться неуважительной!

В директорию "credits" копируйте протокол и два fasta-файла из четвёртого задания.

См. подсказки

Задание 1. Знакомство с геномом прокариотического организма

  1. Занесите в протокол информацию о том, к какому роду, виду и штамму принадлежит выданный вам организм.

  2. Скачайте записи банка RefSeq (все файлы с расширением gbk), относящиеся к выданному организму из базы данных полных геномов (адрес FTP-сервера: ftp.ncbi.nlm.nih.gov/genomes/Bacteria/, файлов может быть от одного до пяти).

  3. Занесите в протокол сведения о том, сколько файлов скачано и для каждого: имя файла, длина последовательности (см. в строке LOCUS) и её описание (см. в строке DEFINITION). Если файлов больше одного, лучше оформить эти сведения в виде таблицы, соответственно перенумеровав таблицы следующих заданий.

Задание 2. Знакомство с геном вашего белка

Найдите в одном из файлов с расширением gbk, относящихся к данному геному, запись, отвечающую вашему белку (см. в правом столбце таблицы), и заполните в протоколе таблицу 1. Вместо XXX напишите идентификатор белка, а вместо NNN – полное название организма.

Таблица 1. Ген белка XXX из генома организма NNN

Свойство

Значение

Код доступа (Accession) записи RefSeq

...

Метка локуса

...

GI

...

GeneID

...

Начало в геноме

...

Конец в геноме

...

Цепь (прямая или обратная)

...

Длина гена (в п.н.)

...

Длина белка (в аминокислотных остатках)

...

Описание белка

...

Задание 3. Другие файлы базы полных геномов

Скачайте все файлы, относящиеся к той же записи RefSeq, в которой нашёлся ваш белок, и имеющие расширение из трёх букв. Заполните таблицу 2. В последней колонке опишите, какого рода информацию содержит файл; если это не удаётся понять, пишите "неясно".

Таблица 2. Файлы, относящиеся к записи NC_0000000

Имя файла

Текстовый/бинарный

Формат (fasta/текстовая таблица/иной)

Что содержит

...

...

...

...

...

...

...

...

Задание 4

  1. Создайте файл в fasta-формате, содержащий последовательность вашего белка (и только её!). Имя файла должно совпадать с основной частью (т.е. до точки) идентификатора белка и иметь расширение fasta (например, если идентификатор белка YP_012345.1, то имя файла должно быть YP_012345.fasta). Название последовательности должно совпадать с именем файла до расширения (например, "YP_012345", более ничего!), описание совпадать с описанием белка (продукта гена) в записи RefSeq. Напишите в протоколе, как вы создали этот файл.

  2. Создайте файл в fasta-формате, содержащий последовательность гена вашего белка. Подходящие имя файла и имя последовательности подберите сами (но расширение – обязательно "fasta"). Обязательно проверьте, сверившись с генетическим кодом, что первые четыре-пять аминокислот вашего белка совпадают с закодированными в гене! Занесите в протокол всё, заслуживающее быть отмеченным.