Учебная страница курса биоинформатики,
год поступления 2014

Практикум 3. Задания.

Срок выполнения задания – следующее занятие, то есть утро 26 сентября (лучше, конечно, вечер 25-го).

Задание 0.

Создайте рабочую директорию pr3 в директории H:\term1\block1. Создайте в рабочей директории файл протокола с именем вида <Familiya>_pr3.doc (например Petrova_pr3.doc). После окончания выполнения заданий скопируйте протокол в директорию credits. Не забывайте о наших правилах ведения протоколов.

Задание 1.

Определите, какими байтами кодируется конец строки в вашем файле с последовательностью из вируса. Внесите в протокол шестнадцатеричное обозначение байта (байтов) и описание способа, которым вы узнали его.
Для каждого из файлов example1.txt, example2.txt, example3.txt, example4.txt (ищите на диске P) определите: общее число байтов, как кодируется конец строки, какова кодировка кириллицы.
Откройте каждый из четырёх файлов программой Notepad. Опишите, что вы увидели и почему.
Создайте в своей рабочей директории файл example1-win.txt, содержимое которого совпадает с содержимым файла example1.txt с диска P, но конец строки – принятый в Windows, а кодировка – cp-1251 (Windows ANSI).
(*) – дополнительно. Скопируйте в свою директорию файл Hyla_arborea.jpg с диска P, или возьмите любой другой jpg-файл. Файл в формате jpg – бинарный и не предназначен для побайтового редактирования! Тем не менее откройте его в редакторе и измените несколько байтов (не меняя их количества). После каждого изменения открывайте файл по ассоциации. Опишите эффект от вашего редактирования.

Задание 2.

Скопируйте в рабочую директорию файл с описанием генома вируса, с которым вы работали на прошлом занятии (с расширением gbk). Занесите в протокол название вируса (ищите в строке, начинающейся с SOURCE). Попытайтесь разобраться, какая информация хранится в строке LOCUS и внесите то, что вы поняли, в протокол.
Найдите в файле описания кодирующих последовательностей (CDS – Coding DNA Sequence). Создайте и заполните таблицу, аналогичную приведённой ниже:

Таблица 1. Кодирующие последовательности из генома вируса XXX (идентификатор YYY)
№	Начало	Конец	Направление	Длина
1	...	...	...	...
2	...	...	...	...
...	...	...	...	...

Обязательно сопроводите таблицу вводным текстом, объясняющим, с каким файлом вы работаете и какого рода информация в нем содержится, а также ссылкой на таблицу с указанием ее номера. Не забудьте написать название таблицы, заменив XXX на название вируса, а YYY – на идентификатор записи банка RefSeq.

c. Включите в протокол ответы на вопросы:
- Ожидаете ли вы, что полученные длины кодирующих участков должны делиться на 3, и почему?
- Все ли полученные длины кодирующих участков делятся на 3? Если нет, то как вы могли бы это объяснить?

Задание 3.

Зайдите по ftp на сервер NCBI: ftp.ncbi.nlm.nih.gov . Перейдите в директорию genomes/Viruses и найдите поддиректорию, соответствующую своему вирусу. Скопируйте в рабочую директорию все файлы из этой директории. Занесите в протокол ответы на вопросы:

Сколько всего файлов?
Какие у них расширения?
Сколько файлов с расширением gbk? Если их больше одного, то почему (просмотрите содержимое файлов и постарайтесь разобраться).
Файлы с какими расширениями – текстовые, а какие – бинарные?

Для как можно большего числа файлов постарайтесь разобраться, какого рода информация в них содержится, и кратко опишите, что вы поняли, в протоколе.

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2014

Практикум 3. Задания.

Задание 0.

Задание 1.

Задание 2.

Задание 3.

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2014

Практикум 3. Задания.

Задание 0.

Задание 1.

Задание 2.

Задание 3.

Учебная страница курса биоинформатики,
год поступления 2014