Учебная страница курса биоинформатики,
год поступления 2016
Этапы выполнения
Этой осенью произошло изменение структуры баз данных на сайте NCBI. Я описываю современный способ доступа к файлам. Ниже стрелочка "=>" значит переход по ссылке.
Найдите базу данных Genome на сайте NCBI (Google: NCBI Genome) => Browse by organism. Введите название вашей бактерии или археи (напр., Bacillus subtilis) => Search by organism => по имени организма
На странице организма откройте список геномов (=> list), выберите ваш геном по названию штамма и перейдите по ссылке из колонки FTP (последней). Вы попадаете в директорию с файлами, относящимися к вашему геному. Если нет кнопки list (потому, что только один геном этого вида секвенирован), то
на странице генома щелкайте по ссылке в строке Assemly,потом - Download assembly GeneBank или Refseq - все равно. См также подсказки к пр.12
Вам нужно скачать и разархивировать файл feature_table.txt. Импортируйте файл в Excel (см. инструкцию) и превратите в плоскую таблицу нужного формата.
- Удалите строки "gene", так как они для прокариот не информативны. Для этого в меню Данные установите фильтр, отфильтруйте строчки "gene" и удалите.
- Создайте отдельный лист с гистограммой длин всех белков. Напишите, белки какой длины встречаются чаще всего. Опишите особенности распределения белков по длинам, которые показались вам интересными/удивительными/странными.
- Создайте отдельный лист с таблицей распределения генов белков и РНК по цепочкам. Заполнение таблицы - функциями.