Учебная страница курса биоинформатики,
год поступления 2017
Скачивание таблицы генов (еще раз)
Ниже стрелочка "=>" значит переход по ссылке.
Найдите базу данных Genome на сайте NCBI (Google: NCBI Genome) => Browse by organism. Введите название вашей бактерии или археи (напр., Bacillus subtilis) => Search by organism => по имени организма
На странице организма откройте список геномов (=> list), выберите ваш геном по названию штамма и перейдите по ссылке из колонки FTP (последней). Вы попадаете в директорию с файлами, относящимися к вашему геному. Если нет кнопки list (потому, что только один геном этого вида секвенирован), то
на странице генома щелкайте по ссылке в строке Assemly,потом - Download assembly GeneBank или Refseq - все равно. См также подсказки к пр.12
Вам нужно скачать и разархивировать файл feature_table.txt. Импортируйте файл в Excel (см. инструкцию) и превратите в плоскую таблицу нужного формата.
Обязательные задания
- Таблица числа генов по категориям
В разделе Материалы и методы опишите как вы выделяли те или иные гены. Например так:
Гены белков: в колонке features стоит CDS, в колонке class - пустое значение (у вас может быть не так!!!)
Гены белков-транспортеров: гены белков такие, что в колонке name встречается слово transporter; 5 генов были удалены из этого списка потому, что из названия гена я понял, что он не является транспортером.
Вашей квалификации пока может не хватить на то, чтобы точно отобрать нужные гены и только их. За ошибки проверяющие штрафовать не будут - если действуя по описанной вами методике получат тот же ответ, т.е. тоже число транспортеров, например.
Самый простой способ с помощью Excel получить число генов из такой-то категории - использование фильтра из меню data. Для примеры выше: выделите все столбцы и нажмите Filter; в колонке features оставьте значения CDS, в колонке class - пустые значения, в колонке names - выберите text contains и укажите слово transporter
- Гистограмма длин белков.
В ней стоит подобрать размеры карманов (бинов, как теперь говорят).
- Если сделать карманы слишком маленькими, то гистогрмма получится "зубчатой" - то маленькое значение, то большое, и будет трудно уловить общую тенденцию
- Если размеры карманов слишком большие, то может оказаться один очень высокий столбец, и с двух сторон от него такие маленькие столбцы, что их даже незаметно `:(
Именно для подбора подходящих карманов я рекомендую гистограмму вычисля с помощью СЧЁТЕСЛИМН(...) (написать столбец границ карманов и считать сколько значений болше предыдущей границы и меньше или равно текущей границы). Тогда при изменении границ гистограмма, в т.ч. ее графическое представление, автоматически пересчитаются.
- Таблица числа генов по цепочкам ДНК.
Можно действовать так же, как в 1., добавив фильтр по цепочке
Дополнительные задания
Оформление отчета
1. Используйте образцы из журнала. Скачайте один из них, и вставляйте в него текст, таблицы и рисунки! Старайтесь не испортить форматирование!
2. См. статью, на которую приведена ссылка, или найдите сами в Pubmed, чтобы посмотреть как это делается. Выбирайте статьи в открытом доступе (Кнопка Free в Pubmed). Cкачивайте текст в формате .pdf