Учебная страница курса биоинформатики,
год поступления 2013
Практикум 3. Подсказки
1. Некоторые сведения о файлах и их расширениях
Расширения – это условные типы файлов, которые, в частности, показывают операционной системе, какая программа должна обрабатывать файл при открытии. Тем не менее, расширение НЕ ОПРЕДЕЛЯЕТ тип файла по-настоящему; если Вы смените расширение документа Word .doc (бинарного файла) на .txt, он не превратится в текстовый! Аналогично, если сменить .doc на .bmp, он не станет картинкой, и т.п. Максимум чего Вы добьетесь – это что система станет считать его текстовым файлом или картинкой, честно попытается открыть с помощью, соответственно, Блокнота или Paint, но ничего не выйдет.
Тем не менее, использовать расширения очень полезно. Они позволяют сразу ориентироваться в том, какой файл что содержит, и не путаться в файлах. Поэтому, когда мы создаем последовательность в FASTA-формате, мы указываем расширение .fasta, хотя само по себе оно ничего не дает. Текстовый файл приобретает формат FASTA не за счет расширения, а за счет соблюдения правил оформления его содержимого.
- Как заставить Windows показывать расширение файла:
- Войдите в панель управления (через меню "Пуск" или, если это Windows 8, через начальный экран);
- Найдите там пункт "Свойства папки" (или "Параметры папок");
- Переключитесь на вкладку "Вид" и найдите в дополнительных параметрах пункт "Скрывать расширения для зарегистрированных типов файлов"; снимите с него галочку и нажмите ОК.
2. Некоторые новые функции FAR
Подключение к серверу через FTP-протокол с помощью FAR. FTP расшифровывается как File Transfer Protocol; это специальный тип подключения для обмена файлами, в том числе большими. Этот протокол часто используется для обращения к исходным данным той или иной биоинформатической базы данных. Более подробную информацию о том, как он работает и чем отличается от других способов передачи данных, вы можете найти в Википедии.
Откройте FAR. Перейдите к окну выбора диска (<Alt + F1> или <Alt + F2>) и выберите пункт FTP. ! В новой версии FAR, в том числе той, что стоит в компьютерном классе, этого пункта не будет. Вместо него будет пункт NetBox: он позволяет подключаться не только через протокол FTP, но и другими способами.
Создайте новое подключение через <Shift + F4>. Если используется NetBox, то выберите в выпадающем меню "File Protocol" пункт FTP. В пункт "Host" введите нужный адрес (например, адрес базы данных геномов, нужной для задания, ftp.ncbi.nlm.nih.gov/genomes/Bacteria/), остальные поля оставьте пустыми (если при подключении запросится пароль – оставьте поле пустым). Нажмите Save
Выберите созданное подключение и нажмите Enter, чтобы подключиться.
Скачивание информации с удаленного сервера (на примере базы данных геномов). Навигация по директориям и прочие функции при подключении к серверу остаются такими же, как если бы вы работали с обычной директорией на вашем компьютере. Однако для просмотра файлов FAR сперва будет загружать их во временную папку, поэтому для экономии времени лучше скопировать все нужные файлы сразу к себе на компьютер. Также, очевидно, вы не сможете ничего изменить на чужом сервере, например, создать новый файл или удалить существующий.
- Подключитесь по FTP к базе данных, как указано выше.
- Найдите директорию, где хранится геном Вашего организма, с помощью поиска, и войдите в нее. Есть два варианта:
Простой поиск. Отсортируйте файлы по имени (Ctrl + F3) и нажмите комбинацию Alt + 7 (не F7!). Появится маленькое окошко внизу экрана. Введите в него первые символы родового названия вашего организма, и курсор перебросится к соответствующему месту списка. Вводя больше символов, вы добьетесь точного положения курсора на искомой папке; если нужную папку вы уже видите глазами, то выйдите из поиска (Esc).
Поиск с помощью маски. Вызовите окно поиска с помощью комбинации <Alt + F7>. В верхнее поле надо либо ввести точное-преточное название файла или директории, которые вы ищете, либо заменить некоторые части этого названия маской. Самая популярная маска – символ звездочки *, обозначающий "0, 1 или более любых символов". Например, если ввести в это поле *.fasta, то результатом поиска будут все файлы или папки, содержащие в конце имени .fasta. А если ввести *fasta*, то будут найдены файлы и папки, у которых где-нибудь в середине или конце есть слово fasta. Еще одна часто используемая маска - символ вопросительного знака ?: она означает "ровно 1 любой символ". Например, все файлы с расширениями из трех букв можно найти через комбинацию масок *.???. Команда Shift+F12 переместит все выделенные (например, с помощью маски) файлы в первые строчки панели. Её полезно использовать если список файлов большой и не помещается в панели.
Отсортируйте по расширению содержимое директории (<Ctrl + F4>) и скопируйте в свою рабочую директорию все файлы с расширением .gbk.
Полезные функции текстового редактора.
Чтобы открыть текстовый файл в режиме редактирования текста выберите его в FAR и нажмите клавишу F4.
- При передвижении курсора по файлу в самой верхней строке указывается, в какой колонке и какой строке находится курсор.
В текстовом редакторе смысл функциональных клавиш F1-F12 меняется. Например, поиск в файле вызывается кнопкой F7, а в режиме просмотра директорий эта кнопка отвечает за создание директории. Поэкспериментируйте с нажатием кнопок!
- Для поиска по имени поля бывает полезно включить чувствительность поиска в регистру. Это можно сделать, выбрав пункт "Case sensitive" в окне поиска.
Файл можно открыть в режиме просмотра его настоящего содержимого в виде шестнадцатеричных чисел. Для этого выберите его в FAR и нажмите F3 (режим просмотра), а потом переключайтесь между просмотром текста и hex-а комбинацией клавиш <Alt + F4>.
Переименование файла.
Чтобы поменять имя файла, выделите его в FAR и нажмите кнопку F6. В появившемся окне вы можете выбрать новое имя для файла, а также (если хотите) переместить его в другое место. Чтобы просто переименовать файл, начинайте сразу вводить новое имя в поле.
Если Вы хотите только сменить расширение файла на, скажем, foo, то не обязательно вводить первоначальное имя, можно использовать маску, то есть ввести *.foo. В этом случае имя файла останется прежним, а расширение заменится на foo.
3. Работа с таблицами в Word
- Чтобы создать таблицу в версиях Word начиная с 2007, выберите вкладку "Вставка" и там кнопку "Таблица". Вы можете выбрать нужный размер таблицы в выпадающем меню или щелкнуть на "Вставить таблицу" и потом вручную ввести нужное количество строк и столбцов.
Чтобы создать таблицу в более ранних версиях Word (97 – 2003), выберите пункт меню "Таблица", далее "Вставить" и "Таблица". Укажите нужное количество строк и столбцов.
- Таблица будет вставлена в самом простом формате. Если вы хотите его поменять (например, сделать самые внешние границы таблицы более жирными и т.п.), есть два варианта, выбирайте любой:
- Можно выделить мышью ячейки, границу которых Вы хотите поменять, щелкнуть ПКМ и выбрать пункт "Границы и заливка". Там можно варьировать формат границ ячеек и даже убрать все границы, сделав их невидимыми.
- Можно использовать панель "Нарисовать границы" во вкладке "Макет"; эта вкладка появляется только тогда, когда курсор находится внутри таблицы.
- Иногда бывает полезно оформить какой-то текст в виде "скрытой таблицы", то есть чтобы границы этой таблицы были не видны при печати, но все остальные функции форматирования текста в ячейках сохранялись.
- Если вы хотите видеть непечатаемые линии таблицы, во вкладке "Макет" выберите кнопку "Отобразить сетку".
- Таблицу можно легко отсортировать как по возрастанию, так и по убыванию в любой колонке. Поместите курсор внутрь таблицы и перейдите во вкладку "Макет", а там в панели "Данные" выберите пункт "Сортировка". Если у таблицы есть заголовки (а так должно быть!), то не забудьте проверить, что выбран пункт "со строкой заголовка", иначе будет неприятный сюрприз.
4. Записи из баз данных нуклеотидных последовательностей
4.1. Форматы записи в базах данных нуклеотидных последовательностей: общие свойства
В базах данных нуклеотидных последовательностей информация собрана в записи. Каждая отдельная запись хранит информацию об одной последовательности ДНК; часто одна запись хранится в одном файле. Существует два сходных и общепризнанных формата записи: GenBank и EMBL. Два формата существуют потому что две самые крупные базы данных физически находятся на серверах разных стран и ими управляют разные ученые (см. пункт 4.3. подсказок). Краткая информация о том, где вы можете найти в них нужную информацию, приведена в таблицах 1-3. Рассмотрите эти таблицы, а если что-то непонятно – сразу спрашивайте преподавателя.
Таблица 1. Соотнесение основных полей в форматах записи нуклеотидных последовательностей GenBank и EMBL.
Информация |
Поле в EMBL |
Поле в GenBank |
Примечание |
Краткое описание записи |
DE |
DEFINITION |
В записях с полным геномом это поле содержит название организма, которому принадлежит последовательность, название хромосомы или плазмиды, например, plasmid pREB9, слова complete sequence полная последовательность или complete genome – полный геном [правка ААл] |
Тип нуклеиновой кислоты |
ID, четвертое значение |
LOCUS, третье значение |
ДНК (DNA) или РНК (RNA) |
Замкнутость молекулы |
ID, третье значение |
LOCUS, четвертое значение |
Указывает, циклическая ли эта молекула (circular) или линейная (linear) |
Идентификатор записи |
AC |
ACCESSION |
Это универсальный идентификатор данной записи (содержащей геном, плазмиду и вообще любую нуклеотидную последовательность) в пределах базы данных. В случае полных геномов, как правило, этот идентификатор не меняется с течением времени |
Длина записи (пар нуклеотидов) |
ID, SQ |
LOCUS |
В обоих форматах поле используется не только для хранения длины; ищите цифру, после которой стоит сокращение bp (от "base pairs"), т.е. "пар оснований", или "нуклеотидных пар" |
Название организма |
OS |
ORGANISM, 1 строчка |
- |
Таксономическое положение организма (классификация) |
OC |
ORGANISM, начиная со 2 строчки |
Приводится начиная с более крупного и общего таксона до частного (рода) |
Аннотированные особенности последовательности |
FT |
FEATURES |
Все, что ниже строчки FEATURES в GenBank (или все, что следует за строчкой FH и в начале строчки отмечено FT в формате EMBL) – это описания конкретных особенностей последовательности генома, то есть там по порядку будут описываться гены и базовая имеющаяся о них информация, а также в самом конце собственно геномная последовательность. Все, что выше – это свойства всего генома и данной конкретной записи в базе данных. |
Последовательность |
SQ |
ORIGIN |
Все, что ниже отмеченных так строчек - это нуклеотидная последовательность. В обоих форматах каждые 10 нуклеотидов разбиты пробелом для удобства чтения. В формате GenBank порядковый номер первого нуклеотида в каждой строке дается слева, а в формате EMBL порядковый номер последнего нуклеотида в каждой строке дается справа. Постарайтесь не запутаться! |
4.2. Аннотированные особенности генома
Аннотированные особенностей (англ. features) в обоих базах данных оформлены примерно одинаково. Файл разбивается на две части: колонки с 1 по 21 будут содержать только типы особенностей, а в колонках с 22 по 79 уже содержится конкретная информация. Самая базовая информация о каждой особенности – ее положение в геноме; оно обычно указывается в формате начало..конец, например 5..100. Внимание: если данная особенность (например, ген белка) на самом деле считывается не с той цепи ДНК, которая указана в файле, а с обратной ей, то координаты начала и конца помещаются в скобки после слова complement, которое означает "комплементарный". Например: complement(5..100).
Если об особенности известно нечто большее, чем просто тип, координаты и цепь, то все эти сведения помещаются в строчках ниже в колонках с 22 по 79, а в колонках с 1 по 21 ничего нового не появляется. Самые основные типы особенностей перечислены в таблице 2, а конкретные поля аннотации генов - в таблице 3.
Таблица 2. Основные типы "аннотированных особенностей" последовательностей
Информация |
Поле в EMBL и GenBank |
Примечание |
Ген |
gene |
Самый общий тип, описывающий ген. Почти всегда после перечисления нескольких базовых свойств гена (таких, как имя гена, имя локуса и т.п., см. таблицу 3) следует уже конкретный тип этого гена. Некоторая информация в случае обычного гена дублируется в нижней записи, но иногда они не совпадают. ! Обратите внимание, что запись типа gene иногда отсутствует, а сразу идет конкретный тип записи, один из указанных ниже, например. Лучше ориентируйтесь на них. |
Ген белка |
CDS |
Название является сокращением от "Coding DNA Sequence", т.е. буквально "кодирующая последовательность" |
Ген тРНК |
tRNA |
- |
Ген рРНК |
rRNA |
- |
Таблица 3. Основные поля, описывающие конкретный ген белка
Информация |
Поле в EMBL и GenBank |
Примечание |
Идентификатор белка |
protein_id |
Уникальный идентификатор данного белка в базе данных |
Имя гена |
gene |
Часто присваивается, если белок когда-то изучался экспериментально, но может быть заполнено и в других случаях |
Название локуса |
locus_tag |
Иногда используется для ссылки на этот участок генома, в том числе в экспериментальных статьях |
Положение старт-кодона относительно начала особенности |
codon_start |
|
Номер таблицы генетического кода, использованной для получения последовательности белка |
transl_table |
Генетический код организмов немного отличается; описание и список разных таблиц генетического кода даны на сайте NCBI |
Ссылка на другие базы данных |
db_xref |
В этом поле описываются разные идентификаторы в других базах данных, присвоенные этому гену (если такая информация имеется) |
Продукт гена |
product |
В этом поле обычно записывается название продукта гена. Аккуратнее с этим и следующими двумя полями: объем баз данных геномов увеличивается так быстро, что 99,99% продуктов всех генов никогда не изучались вручную, а данная аннотация была дана автоматически, по сходству с изученными белками или вообще предсказана без эксперимента. Часто аннотация вполне верна, но часто - нет =) |
Предполагаемая функция продукта гена |
function |
Поле в свободном формате, описывающее кратко или длинно предполагаемую функцию продукта гена. Может дать общее представление о том, что делает белок, НО осторожно: автоматическая аннотация (см. выше)! |
Примечания |
note |
Еще более свободно заполняемое поле. Может дать общее представление о том, что делает белок, НО осторожно: автоматическая аннотация (см. выше)! |
Трансляция |
translation |
Аминокислотная последовательность белка, получаемая "декодированием" гена |
4.3. Что такое EMBL и NCBI
EMBL (European Molecular Biology Laboratory) – европейский исследовательский центр. Ученые этого центра поддерживают многие базы данных и инструменты для биоинформатического анализа. Есть у них и своя база данных последовательностей, из которой был извлечен файл генома вируса, выданный Вам на прошлом занятии.
NCBI (National Center for Biotechnology Information) – расположенный в США исследовательский центр. Ученые из этого центра в том числе поддерживают многочисленные базы данных и инструменты для работы с биологическими последовательностями. Например, на его серверах находится общедоступная и огромная база данных последовательностей геномов. Эти последовательности сохранены в специальном формате GenBank, который, с одной стороны, можно (приноровившись) читать глазами пользователя, а можно (как мы убедимся достаточно скоро) "читать" с помощью написанной программы. Формат GenBank немного отличается от формата EMBL, с которым Вы уже познакомились при рассмотрении генома вируса, но в целом в них содержится одна и та же информация, т.е. они взаимозаменяемы.