Учебная страница курса биоинформатики,
год поступления 2013
Практикум 3. Задания
Группа, у которой это занятие прошло 20 сентября, должна выложить результаты выполнения практикума до 23:59 26 сентября, а группа, у которой занятие 21 сентября, - до 23:59 27 сентября.
Не забывайте смотреть подсказки к заданию, и не стесняйтесь спрашивать любого из преподавателей, если что-то не получается!
Соответствие между студентом и прокариотическим организмом, а также конкретным геном этого организма приведено в таблице. Начиная с этого занятия, если не оговорено обратное, под терминами "Ваш организм", "Ваш геном", "Ваш ген" или "Ваш белок" будет пониматься именно этот организм, геном, ген и, соответственно, белок, который кодируется выданным геном.
Важное замечание по оформлению протокола: ваш протокол должен представлять собой связный текст, описывающий Ваши действия и понятный БЕЗ обращению к тексту задания. То есть, например, если в задании сказано, что надо посчитать количество генов, кодирующих белки, Вам нужно сделать запись в протоколе о том, как Вы считаете эту величину и чему равно итоговое значение, а не просто написать номер задания и голое число (или "Ответ - 100").
Задание 0. Подготовка рабочей директории
Создайте рабочую директорию этого практикума (pr3) в поддиректории block1 директории term1.
Создайте файл протокола текущего занятия и поместите его в эту же директорию; финальная версия протокола, готовая к проверке, должна находится в папке term1/block1/credits в срок.
Помните о названии файла протокола (см. задания к первому практикуму, п. 7). Не забывайте о правилах оформления протоколов!
Задание 1. Анализ содержимого генома вируса
Смените расширение у файла с геномом вируса, с которым вы работали на предыдущем занятии, с gbk на embl. Вопреки исходному расширению этого файла (gbk), содержимое этого файла записано не в формате GenBank, а в сходном с ним, но все-таки отличающемся, формате EMBL. Как Вы видите, неправильное расширение этого текстового файла не помешало Вам его просмотреть с помощью редактора в Far'е: ведь это обычный текстовый файл.
Занесите длину генома вируса в протокол, укажите единицы измерения, объясните, как вы ее получили.
Создайте в своем протоколе таблицу, аналогичную приведенной ниже таблице 1, и выпишите в нее координаты начала и конца каждого гена по прямой цепи - той, последовательность которой приведена в записи, а также на какой цепи - прямой или обратной, - закодирован ген. По этим данным посчитайте в отдельной колонке длину каждого гена и выделите цветом строчки, отвечающие самому короткому и самому длинному гену. Включите в протокол ответы на вопросы:
- Ожидаете ли Вы, что полученные длины генов должны делиться на 3, и почему?
- Все ли полученные длины генов делятся на 3? Если нет, то как Вы могли бы это объяснить?
Таблица 1. Гены из генома вируса XXX (идентификатор YYY) |
||||
№ |
Начало |
Конец |
Направление |
Длина |
1 |
... |
... |
... |
... |
2 |
... |
... |
... |
... |
... |
... |
... |
... |
... |
! Обязательно сопроводите таблицу вводным текстом, объясняющим, с каким файлом Вы работаете и какого рода информация в нем содержится, а также ссылкой на таблицу с указанием ее номера. Не забудьте написать название таблицы, заменив XXX на название вируса, а YYY – на идентификатор записи, с которой Вы работаете.
Задание 2. Первое знакомство с геномом Вашего прокариотического организма
Занесите в протокол информацию о том, к какому роду, виду и штамму принадлежит выданный Вам организм; идентификатор записи генома (Accession Number) выданного Вам организма (в базе данных RefSeq); идентификаторы гена выданного Вам белка (имя гена (gene, если есть), locus_tag, GI, GeneID); идентификатор выданного Вам белка (в базе данных NCBI Protein Database).
Скачайте информацию о выданном организме из базы данных полных геномов (адрес FTP-сервера: ftp.ncbi.nlm.nih.gov/genomes/Bacteria/).
Занесите в протокол сведения о том, сколько файлов скачано и последовательности какого типа хранятся в каждом из них. Для этого заполните еще одну таблицу (табл.2). Вместо NNN напишите полное название организма, т.е. род, вид и штамм.
Таблица 2. |
|||||
Записи, относящиеся к геному организма NNN |
|||||
№ |
Имя файла |
Размер файла (в килобайтах) |
Тип нуклеиновой кислоты (ДНК/РНК) |
Замкнутость молекулы (кольцевая/линейная) |
Тип молекулы (геномная ДНК/плазмида/что-то еще) |
1 |
... |
... |
... |
... |
... |
2 |
... |
... |
... |
... |
... |
... |
... |
... |
... |
... |
... |
Задание 3. Первое знакомство с геном вашего белка
Найдите в файле генома запись, отвечающую Вашему гену, и заполните в протоколе таблицу 3. Вместо XXX напишите идентификатор Вашего гена, а вместо NNN – полное название организма, т.е. род, вид и штамм.
Создайте файл в FASTA-формате с последовательностью Вашего белка. Формат FASTA универсален для нуклеотидных и аминокислотных последовательностей, поэтому можете воспользоваться подсказками к предыдущему практикуму, п. 4. В качестве названия записи белка введите выданный Вам идентификатор, а в качестве описания - описание продукта гена. В протоколе приведите содержимое этого поля (описание) и попробуйте перевести его на русский язык.
Таблица 3. |
|
Основные свойства гена XXX из генома организма NNN |
|
Свойство |
Значение |
Идентификатор гена |
... |
Начало в геноме |
... |
Конец в геноме |
... |
Цепь (прямая или обратная) |
... |
Длина гена (в парах нуклеотидов) |
... |
Длина белка (в аминокислотных остатках) |
... |