Учебная страница курса биоинформатики,
год поступления 2014
Практикум 3. Задания.
Срок выполнения задания – следующее занятие, то есть утро 26 сентября (лучше, конечно, вечер 25-го).
Читайте подсказки.
Задание 0.
Создайте рабочую директорию pr3 в директории H:\term1\block1. Создайте в рабочей директории файл протокола с именем вида <Familiya>_pr3.doc (например Petrova_pr3.doc). После окончания выполнения заданий скопируйте протокол в директорию credits. Не забывайте о наших правилах ведения протоколов.
Задание 1.
- Определите, какими байтами кодируется конец строки в вашем файле с последовательностью из вируса. Внесите в протокол шестнадцатеричное обозначение байта (байтов) и описание способа, которым вы узнали его.
Для каждого из файлов example1.txt, example2.txt, example3.txt, example4.txt (ищите на диске P) определите: общее число байтов, как кодируется конец строки, какова кодировка кириллицы.
- Откройте каждый из четырёх файлов программой Notepad. Опишите, что вы увидели и почему.
Создайте в своей рабочей директории файл example1-win.txt, содержимое которого совпадает с содержимым файла example1.txt с диска P, но конец строки – принятый в Windows, а кодировка – cp-1251 (Windows ANSI).
(*) – дополнительно. Скопируйте в свою директорию файл Hyla_arborea.jpg с диска P, или возьмите любой другой jpg-файл. Файл в формате jpg – бинарный и не предназначен для побайтового редактирования! Тем не менее откройте его в редакторе и измените несколько байтов (не меняя их количества). После каждого изменения открывайте файл по ассоциации. Опишите эффект от вашего редактирования.
Задание 2.
Скопируйте в рабочую директорию файл с описанием генома вируса, с которым вы работали на прошлом занятии (с расширением gbk). Занесите в протокол название вируса (ищите в строке, начинающейся с SOURCE). Попытайтесь разобраться, какая информация хранится в строке LOCUS и внесите то, что вы поняли, в протокол.
Найдите в файле описания кодирующих последовательностей (CDS – Coding DNA Sequence). Создайте и заполните таблицу, аналогичную приведённой ниже:
Таблица 1. Кодирующие последовательности из генома вируса XXX (идентификатор YYY) |
||||
№ |
Начало |
Конец |
Направление |
Длина |
1 |
... |
... |
... |
... |
2 |
... |
... |
... |
... |
... |
... |
... |
... |
... |
Обязательно сопроводите таблицу вводным текстом, объясняющим, с каким файлом вы работаете и какого рода информация в нем содержится, а также ссылкой на таблицу с указанием ее номера. Не забудьте написать название таблицы, заменив XXX на название вируса, а YYY – на идентификатор записи банка RefSeq.
- c. Включите в протокол ответы на вопросы:
- Ожидаете ли вы, что полученные длины кодирующих участков должны делиться на 3, и почему?
- Все ли полученные длины кодирующих участков делятся на 3? Если нет, то как вы могли бы это объяснить?
Задание 3.
Зайдите по ftp на сервер NCBI: ftp.ncbi.nlm.nih.gov . Перейдите в директорию genomes/Viruses и найдите поддиректорию, соответствующую своему вирусу. Скопируйте в рабочую директорию все файлы из этой директории. Занесите в протокол ответы на вопросы:
- Сколько всего файлов?
- Какие у них расширения?
- Сколько файлов с расширением gbk? Если их больше одного, то почему (просмотрите содержимое файлов и постарайтесь разобраться).
Файлы с какими расширениями – текстовые, а какие – бинарные?
Для как можно большего числа файлов постарайтесь разобраться, какого рода информация в них содержится, и кратко опишите, что вы поняли, в протоколе.