Учебная страница курса биоинформатики,
год поступления 2022
Указания по составлению и оформлению мини-обзора
- Информация, c напоминаниями о некоторых основных темах (вдруг пригодится для составления мини-обзора)
[ Про геном и протеом бактерии ] [ Про биоинформатику как науку. Моя старая презентация ]
Структура научного текста, в том числе, мини-обзора про геном и протеом бактерии или археи
Структура относится к большинству научных текстов. Ниже ориентировано прежде всего на биоинформатическую работу и мини-обзор.
Научный текст состоит из обязательных секций:
- Название (Title)
- Авторы (Authors)
- Аннотация или Резюме (Abstract)
- Введение (Introduction)
- Материалы и методы (Materials and Methods)
- Сопроводительные материалы (Supplementary materials)
- Литература (References)
Дополнительные часто используемые секции
- Обсуждение (Discussion)
- Выводы или Заключение
- Благодарности (Acknowledgments)
Название отражает содержание текста.
Автор без комментариев.
Резюме предельно короткое описание предмета изучения и того, что изучалось. Читатель прочитав резюме должен понять интересен ли ему текст или нет.
Введение содержит информацию об объекте изучения со ссылками на литературные источники. В конце введения формулируются интересные вопросы и что исследуется в работе.
Материалы и методы краткое указание источников данных, использованных в работе; достаточное для того, чтобы читатель мог эти данные найти сам.
Для каждого результата из секции Результаты, должно быть указано каким методом он получен. В мини-обзорах вижу такие методы: из интернет источников (указать их), методом электронных таблиц - Google sheets, указать каким; внешним сервисом или программой, созданной не Автором, - указать сервис/программу; собственной программой - сослаться на строку Сопроводительных материалах, в которой есть ссылка на код.
Материалы и методы служат для справки при чтении основного текста. Текст этой секции должен быть написан коротко и точно. В таком стиле: "Для ..... мы использовали ...."
Результаты разбиваются на разделы. Каждый раздел должен быть выделен в тексте, иметь понятное название и содержать один или несколько связанных между собой результатов.
Методы получения результаты в Результатах не описываются. Методам место в секции Материалы и методы.
Результаты обычно подтверждаются сводными данными в таблицах и/или иллюстрируются на рисунках. Для этого в основном тексте ставится ссылка на таблицу или рисунок по номеру. Все таблицы и рисунки включаются в основной текст лучше сразу после упоминания если место позволяет. Другой вариант - поместить таблицы, рисунки и др. материалы в секцию Сопроводительные материалы. Особенно актуален это вариант для больших таблиц и рисунков; и для описания и кодов собственных программ.
Заслуживающая внимания (новая) собственная программа также может быть отдельным результатом в секции Результаты.
Таблицы оформляются так. Над таблицей пишут номер таблицы и её название. При необходимости за названием помещают пояснения. Внешний читатель должен понимать всё, что представлено в таблице. В первой строке таблицы - названия колонок. Как-то так: "Табл. 3. Число генов РНК, по категориям, закодированных в геноме."
Рисунки оформляются так. Под рисунком пишут номер рисунка и его название. При необходимости помещают пояснения. Внешний читатель должен понимать всё, что представлено на рисунке. Если график то должно быть понятно что по осям. Как-то так: "Рис. 3. Гистограмма длин белков, закодированных в геноме. Длина измеряется числом аминокислотных остатков.
Сопроводительные материалы содержат материалы, необходимые для понимания результатов, но не включённые в основной текст. В мини-обзоре это большие таблицы, составленные из внешних материалов, по представляющие читателю данные в более удобном виде. Например, таблицу с генами РНК (полученную из хромосомной таблица) отсортированную по категориям генов потом по длинам генов. Можно включать коды и описания программ и другие материалы.
Оформляются так. Каждый Материал имеет номер (например S1, S2 и т.д.); название (например, таблица генов РНК); короткое объяснение материала - если только названия недостаточно (например, программа получает на вход ... и выдаёт ....); интернет ссылку на материал или адрес на kodomo по которому можно найти и посмотреть материал.
Ссылаться в основном тексте обзора пишется так: “см. таблицу S1”
Литература содержит пронумерованный список литературных источников или веб-адресов, оформленных стандартным образом. Для статей: Авторы, Название, Журнал, том, страницы (или № выпуска), год. при наличии веб-адрес доступа.
ТРЕБОВАНИЕ: на каждую таблицу, рисунок, сопроводительный материал, литературный источник есть ссылка в основном тексте.
Обсуждение может быть вынесено в отдельную секцию обзора или может присутствовать в секции Результаты после каждого результата, заслуживающего по мнению автора обсуждения. Это замечание касается и секции Заключение.
Как представить окончательную версию мини-обзора для проверки
- Проверяется мини-обзор в формате .pdf, включая сопроводительные материалы на которые есть ссылка в соответствующем разделе обзора
- Ссылка на окончательную версию мини-обзора должна быть на wiki странице студента
Варианты
- В своём аccount на kodomo создайте поддиректорию mini_review в term1: term1/mini_review положите в неё файл мини-обзора в формате .pdf. Укажите адрес этого документа на своей странице wiki.
На своём google диске Upload => File с мини-обзором в формате .pdf. Не забудьте сделать этот файл открытым на чтение для проверяющих (или для всех). Поставьте ссылку на него на своей странице wiki.
Как представить сопроводительные материалы для проверки
Один сопроводительный материал - это один файл и, в случае многостраничных файлов (Google Sheets например), название страницы в нем
- В своём аccount на kodomo создайте поддиректорию: term1/mini_review/supplement. Положите в неё файлы с сопроводительными материалами.
Укажите в мини-обзоре.pdf в разделе Сопроводительные материалы адрес этой директории. Для каждого сопроводительного материала идентификатором является имя файла и страница в нем (если надо)
- На своём google диске сохраните файлы с сопроводительными материалами. Для каждого сопроводительного материала укажите его название, страницу в файле (если нужно) и поставьте ссылку на нужную страницу.
Обязательные исследования
1. Описать стандартные данные о геноме выбранной вами бактерии или археи
Число и названия ДНК, составляющих геном. Длина каждой ДНК в п.н. (Без подсказок)
GC-состав каждой ДНК ( информацию о GC составе найдёте в файле ......assembly_stats.txt в директории, из которой скачивали данные о своей бактерии или археи; тэг gc_perc )
- (?)
2. Привести такие статистические данные о белках протеома
По хромосомной таблице, все нужные данные в ней есть.
Построить и включить в обзор гистограмму длин белков (было задано в блоке Excel)
- Сравнить число генов белков, закодированных на прямой и комплементарной цепочке
- Определить число рибосомальных белков - белков, входящих в состав рибосомы
Определить число гипотетических (hypothetical) белков тех, функция которых не определена; иногда даже надёжных данных о существовании таких белков нет и их процент от всех белков
- Определить число транспортных белков и их процент от всех белков
c. d. e. - поиском по ключевым словам в названиях генов (ribosomal, hypothetical, transport) Подскажу как это делать технически, т.к. как это неочевидно. В свободной колонке поставить формулу
=ЕСЛИОШИБКА(НАЙТИ("ribosomal",O2,1),"")
и распространить её до низа страницы Слово ribosomal ищется в ячейке O2, если найдено, то результат = номер символа, которого начинается это слово в ячейке, если слова нет, результат = ошибка Функция ЕСЛИОШИБКА при ошибке выдаёт как результат указанное значение (в примере "")
По полученным данным можно сделать интересные наблюдения. Например, проверьте есть ли среди рибосомальных белков (или РНК) гены с одинаковыми названиями, какие, сколько и как это можно объяснить. Интересно изучить близость генов по координатам и др.
3. Привести такие статистические данные о генах РНК
- Определить число генов РНК и сравнить с числом генов белков
- Определить число рибосомальных РНК (рРНК) - РНК, входящих в состав рибосомы
- Определить число транспортных РНК (тРНК)
По хромосомной таблице, нужные данные в ней в колонках features и name. См. подсказку к заданию 2
Получилось, что для Обязательных заданий можно не использовать программирование:( Пока так. Если Пензар подтвердит моё предложение включить Дополнительное задание 4 как обязательное задание 1c или предложит другое, приемлемое по сложности, то так и поступлю ААл
Дополнительные исследования для выбора
5. Описать нуклеотидный состав геномных ДНК
Определить число и частоту встреч каждой из букв A, T, G, C (и других - если встретятся) в последовательности геномной ДНК. Верно ли, что число букв A примерно равно числу букв T, а число букв G приблизительно равно числу букв C в последовательности одной цепочки геномной ДНК? (Второе правило Чаргаффа)
Можно написать программу, читающую файл с последовательностью в формате fasta и считающую число встреч каждой из встретившихся букв. Учитывайте возможность появления неожиданных букв. Для зачёта достаточно вычислить для одной хромосомы
6. Проверьте гипотезу о том, что гены распределены по двум цепочкам ДНК случайно с вероятностями 0,5
Можно и так, как написано ниже - без науки статистики:). Зная немножко статистику можно получить ответ гораздо проще. Проверьте гипотезу о том, что гены распределены по цепочкам случайно с вероятностями 0,5 Пусть в вашем геноме 5000 генов белков и 2450 - на одной цепи, 2550 - на другой. Отклонение от ожидаемого числа 2500 равно 50. Надо ответить на вопрос возможно ли получить такое или большее отклонение при независимом случайном выборе цепочки для каждого гена. Подбросим монетку 5000 раз, посчитаем сколько раз выпал орел, каково отклонение от ожидаемого 2500 и сравним с наблюдаемым нами отклонением 50. Если больше или равно - ставим плюс, если меньше - ставим минус. Повторим эксперимент, допустим, 100 раз (а лучше - 1000). Пусть из 100 экспериментов только один раз отклонение оказалось больше или равно наблюдаемому нами 50. Значит, вероятность увидеть отклонение 50 или больше примерно равна 1/100 = 0.01. Вывод. Если мы готовы считать, что событие с вероятностью 0.01 маловероятное, то полученное нами отклонение 50 противоречит гипотезе о независимом случайном равновероятном выборе цепочки для гена. Значит, надо искать причины. Симулируем бросание монетки столько раз сколько генов и повторяем этот эксперимент 100 раз (можно больше). Можно написать программу симулирующую бросания. Можно даже в Excel симулировать случайный выбор цепочки для гена. В пустой колонке таблицы CDS распространите до низу функцию СЛУЧМЕЖДУ нулем ("решка") и единицей ("орел"). Функция выдаёт 0 или 1 с равной вероятностью. Сделайте это в ста колонках и в каждой вычислите число единиц. Сделайте вывод
7. Найдите в кольцевой хромосомной ДНК из выбранного вами генома участок oriC, в котором начинается репликация и участок ter в котором происходит терминация репликации
Прочитайте про GC-skew и как график этой величины иногда помогает определить ori и ter (можно прочитать в wiki). Для вычисления кумулятивного графика GC-skew можно использовать сервис Есть и другие
Было показано, что в геномах прокариот (не всех) величина GC-skew cumulative достигает минимума в oric и максимума в ter (не всегда так - это биология) GC-skew (= (#C - #G)/(#C + #G) где #C - число нуклеотидов С, #G - нуклеотидов G в окне фиксированного размера.
Репликация кольцевой ДНК бактерии начинается в определенном месте(origin) с расплетения цепочек ДНК, и продолжается в обе стороны одновременно с достраиванием комплементарной ДНК к обеим нитям расплетённой ДНК в каждую сторону. Репликация прекращается при встрече репликативных комплексов в участке терминации ter. Из двух комплементарных одновременно реплицирующихся цепочек та, комплетентарная к которой начиная от oric удлиняется с 3'-конца, называется лидирующей. Та, комплементарная к которой от oric "наращивается в сторону от 5'-конца" называется запаздывающей. Кавычки потому, что при синтезе ДНК ( и РНК) всегда следующий нуклеотид присоединяется к 3' концу. Репликация запаздывающей цепочки идёт короткими кусочками, называются фрагменты Окадзаки. Они наращиваются с 3' конца друг за другом, последний синтезированный соединяется с 5'-концом предыдущего.
8. Представьте статистические данные о пересечениях генов белков - если пересекающиеся гены обнаружатся в геноме выбранной вами бактерии
Колонки с координатами генов в хромосоме есть в хромосомной таблице. Думайте как найти пересекающиеся гены Подумайте как интересно представить полученный результат - если такие гены найдутся. Не исключены непонятные сютпризы:)
9. Найдите частоты трёх стоп-кодонов в кодирующих последовательностях белков вашей бактерии или археи
Прочитать про частоты стоп-кодонов можно в статье (англ.) вышедшей в ноябре 2021
Координаты конце гена есть в хромосомной таблице. Не забудьте учесть ориентацию гена, ген на минус цепочке направлен иначе, чем ген на плюс цепочке. Зная их легко в последовательности найти стоп кодон. Напишите программу которая по координатам в последовательности выдаёт последовательности стоп кодонов в удобном виде.
Команды биоинформатического пакета EMBOSS установленного на kodomo
В пакете много полезных программ Некоторые, которые могут быть полезны для исследований, включаемых в мини-обзор, описаны ниже
Узнать что делает программа пакета:
tfm <имя программы из пакета>
Какие параметры у неё:
tfm <имя программы из пакета> -help более подробно: tfm <имя программы из пакета> -help -verbose
Примеры программ:
Вычисление частоты комплементарных пар A-T и G-C (фактически GC-состав) в последовательности ДНК в формате fasta
# geecee из пакета EMBOSS geecee <имя входного фаста файла> <имя выходного текстового файла>
В статье https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3053387/ в Table 1 перечислены GC составы некоторых видов бактерий из разных отделов бактерий. В обсуждении сравните GC состав вашей бактерии с таковым у других представителей того же отдела.
Разбить файл в формате fasta, содержащий несколько последовательностей на файлы с отдельными последовательностями. (например, один файл с геномом, состоящим из нескольких хромосом и/или плазмид)
# seqret из пакета EMBOSS seqret -ossingle2 <имя входного фаста файла>
Найти все открытые рамки считывания в геномной ДНК
# getorf из пакета EMBOSS getorf -table 11 -find 1 -minsize 90 -maxsize 600 -circular <имя входного фаста файла> <имя файла с результатом> # -table 11 значит использовать таблицу генетического кода для бактерий # -find 1 значит, что выдавать трансляции открытых рамок считывания (ORF) от START кодона до STOP кодона # -minsize -- минимальный размер выдаваемых ORF # -maxsize -- максимальный размер выдаваемых ORF # Используя эти параметры можно сократить размер выдачи; легче будет сравниванить с координатами генов из файла feature_table #или так getorf -table 11 -find 3 -minsize 90 -circular <имя входного фаста файла> -filter | grep ">" > <имя выходного файла> # -find 3 значит, выдавать нукл. последовательности ORF # В результате окажутся только строки, содержащие инфо. о координатах ORF
Вычисление числа встреч каждого из слов заданной длины в последовательности ДНК
# wordcount из пакета EMBOSS wordcount -wordsize 1 <имя входного фаста файла> <имя выходного текстового файла> # Выдаёт число всех слов длины 1, т.е. букв, встретившихся в последовательности. # Можно и так, но придётся подождать подольше: wordcount -wordsize 40 -mincount 20 <имя входного фаста файла> <имя выходного текстового файла> # результат - все слова длины 40, которые встречаются в геноме не менее 20 раз, и для каждого - число встреч в геноме
Вычислить сколько раз в последовательности ДНК встретилось данное слово
#fuzznuc из пакета EMBOSS fuzznuc -pattern GTTTGTAG <имя генома в фаста формате> <имя выходного текстового файла> # Выдаются все такие слова найденные на прямой цепочке ДНК и их число fuzznuc -pattern GTTTGTAG -complement <имя генома в фаста формате> <имя выходного текстового файла> # Выдаются все такие слова найденные и на прямой цепочке ДНК и на комплементарной и их число
{{{wiki comment
- Самый простой способ определения ожидаемого числа встреч данного слова (например, ATG) в геноме известного размера (например, 1 млн пар нуклеотидов). 1) Вычислить частоту букв A, T, G. 2)В предположении, что буквы в каждой позиции генома появляются случайно с вероятностью, равной частоте буквы, и независимо от букв в других позициях, вероятность появления слова ATG начиная с люб ой позиции равна произведению вероятностей для каждой из трех букв. Позиций 1 млн. Способ не самый точный, но для приблизительно оценки ожидаемого числа слова в геноме приемлем (более точные реализованы в программе cbcalc на kodomo)
cbcalc -K -s ATG -o <имя выходного файла> <имя входного фаста файла> # без указания -o выдает ответ в STDOUT, подробнее в cbcalc -h # (-B, -M, -P другие методы вычисления ожидаемого) # Автор программы - Иван Русинов, можете его спрашивать.
}}}
Инициативные темы, которые рассматривал в предыдущие годы
- Вычислить и сравнить числа генов белков в шести рамках считывания. Простая работа - нужны только координаты генов в геноме.
- Гистограмма длин межгенных промежутков. Тоже технически простая тема. Результат почти наверняка будет не без сюрпризов.
- Статистика белков по категориям достоверности их существования(Uniprot)
- Найдите и опишите повторяющиеся последовательности в геноме, появление которых нельзя объяснить случайностью
Нельзя объяснить случайностью совпадение длинных слов.
Например разных слов длины 30 всего 430= 260, примерно 10006 = 1018. В геноме число слов длины 30 примерно равно его длине N, т.к. слово может начинаться с 1 нукл, 2го, 3го и т.д. до нуклеотида с номером (длина генома N -20). В геноме длины N имеется N*(N-1)/2 пар слов длины 30, т.е. порядка N2. Вероятность совпадения двух слов выбранных случайно из 1018 слов длины 30 имеет порядок (1/1018). Значит, ожидаемое число пар совпадающих слов равно примерно (1/1018)* N2. Если N порядка миллионов, т.е. 106, то ожидаемое число пар порядка 1/106, т.е. вероятность увидеть пару совпадающих слов длины 30 в геноме размера 1 млн очень мала.
Это рассуждение выше не строгое и не даёт точного ответа. Однако даёт представление о порядке интересующих нас величин.
Найдём длинные слова длины 30, встречающиеся в геноме не менее 20 раз, используя wordcount (см. выше)! В моем примере числа 30 и 20 подобрал путём перебора, чтобы получить не слишком много находок, но более одной.
Выберу одно из найденных слов и найду координаты всех таких слов в геноме:
Вычислить сколько раз в последовательности ДНК встретилось данное слово
fuzznuc -pattern GTTTGTAGCTTACCTATAAGGGATTGAAAC -srevers1 <имя генома в фаста формате> -filter
Получили результат, довольно удивительный в этом примере!
Можно разрешить, например, два несовпадения в слове с геномом с тем которое ищется:
fuzznuc -pattern GTTTGTAGCTTACCTATAAGGGATTGAAAC -srevers1 -pmismatch 2 <имя генома в фаста формате> -filter
Далее что интересно. Сравнить координаты находок анализируемого слова с координатами генов. Если внутри генов, то это дупликации генов? Каких?
Если нет, то на одной ли цепочки или на разных? Идут ли они близко расположенными парами? Инвертированные повторы (если в паре они на разных цепочках) или тандемные повторы (на одной цепочке). Всякие такие повторы крайне интересны, даже если объяснить их вам не удается.
Открытие знаменитых CRISPR-Cas систем, использующиеся для генной инженерии и даже генной терапии людей, началось с того, что в 90х годах японский учёный (сейчас не помню фамилии, надо посмотреть) обнаружил в геноме повторяющиеся последовательности - странные потому что не мог их объяснить. Потом их назвали CRISPR (R от repeat), лет через 10 кое-какое объяснение было найдено, и еще лет через пять стали использовать для генной инженерии. Дата по памяти, могу ошибиться +/- пять лет. Если спросите - посмотрю и отвечу.
3. Анализ статистики k-меров в геноме для одного k
Для каждого k-мера вычислите ожидаемое по статистике число его встреч в вашем геноме и отношение cb = <наблюдаемое>/<ожидаемое> cb от Compositionsal Bias. Иногда пишут так: O/E (Observed/Expected)
10. Вычислите число генов одной из категорий ниже, и для генов белков — процент от числа всех белков