Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2014

Подсказки к занятию 4

Чтобы найти нужный текст (например, идентификатор белка) в большом файле (например, записи RefSeq), откройте файл в редакторе Far и нажмите <F7>, далее внесите в окошко искомый текст и нажмите <Enter>.

Координаты и направление гена в геноме находятся в строке CDS выше другой информации о гене. Направление гена прямое, если в этой строке только числа и точки, например:

     CDS             1728..2441

если же направление обратное, то возникнет слово "complement".

Информация о гене занимает несколько строк, среди которых ищите описание белка ("product" – имеется в виду, что белок есть продукт гена), метку локуса ("locus_tag"), GI и GeneID.

Про fasta-формат и FTP см. в подсказках к предыдущим практикумам. Возможно, полезной будет информация, что fasta-формат допускает несколько последовательностей в одном файле, у каждой своё название и описание. Формат для нуклеотидных и аминокислотных последовательностей одинаковый (только наборы букв в самой последовательности разные).

Файл имеет формат текстовой таблицы, если он текстовый и его строки, начиная с какой-либо (обычно первой, но не всегда), имеют вид нескольких небольших текстов ("содержимого ячеек"), разделённых одним и тем же разделителем. Разделителем часто служит байт <Tab> (шестнадцатеричный код 09), иногда точка с запятой, вертикальная черта или даже пробел (когда содержимое ячеек само не содержит пробелов). Ячеек в каждой строке, как правило, равное количество. Среди файлов банка геномов есть несколько текстовых таблиц. Кстати, полезно понимать, как выглядит в редакторе файл, содержащий байты <Tab>. Это лучше всего определить экспериментально – такой байт вводится в редакторе с клавиатуры с помощью одноимённой клавиши.

Вам понадобится выделение и копирование блоков, смотрите в подсказке к Far manager'у.

Генетический код найдите сами :)

При выполнении последнего задания (последовательность гена) имейте в виду, что стартовым кодоном у бактерий может быть не только ATG, но и GTG, а иногда и TTG. При этом все эти кодоны при инициации трансляции (то есть в самом начале гена), в отличие от элонгации трансляции (то есть в других местах гена), кодируют метионин (M).