Учебная страница курса биоинформатики,
год поступления 2021
Google Chrome отказывается скачивать файлы Word (.doc и .docx) а образцы из журналов как раз в этом формате. Используйте другие браузеры, например, Mozilla. Или скачайте образцы с сервера kodomo в директории P:\y21\term1\Minireview
Указания по составлению и оформлению мини-обзора
- Информация, полезная для составления мини-обзора
[ Про геном и протеом бактерии ]
- Образцы оформления статей для подачи в журналы
[ Bioinformatics ] [ JBCB ] [ Microorganisms ]
Эти образцы содержатся также на сервере kodomo в папке с адресом /P/y21/term1/
Последний образец предлагаю с осторожностью, т.к. когда удалите ненужную вам колонку слева, то захочется занять пустое место, т.е. переформатировать страницу [Боротся с Word бывает сложно:( ].
Оставил, т.к. английский текст в образце объясняет, что писать в каком разделе.
Вам решать какой образец выбрать. Можно и самому сформатировать текст в Word, подражая образцу [3].
Завешенный текст следует сохранить в формате pdf для предоставления на проверку.
28 нояб. Несколько упорядочил текст.
ААл
Как сделать доступными для проверки преподавателем мини-обзор, и данные и собственные программы использованные при написании мини-обзора
Два способа
- Создать в своём аккаунте на kodomo директорию
- ~/public_html эта директория автоматически становится видной в интернет
Проверьте, что права на чтение есть для всех (other)
- и в ней поддиректория term1/mini_review
- положить в неё нужные файлы, включая мини-обзор в формате .pdf
- проверить, что ссылки работают: ссылки имеют вид
https://kodomo.fbb.msu.ru/~<ваше пользовательское имя на kodomo>/term1/mini_review/<имя файла>
Например, у меня в директории https://kodomo.fbb.msu.ru/~aba/term1/y19 в файле akadem_groups-sem1.docx лежит список студентов, поступивших на ФББ в 2019 году.
Его адрес в интернет такой: https://kodomo.fbb.msu.ru/~aba/term1/y19/akadem_groups-sem1.docx
Проверьте:)
Сохраните мини-обзор в формате .pdf на своём google диске (Upload => File).
Файлы с данными и программами сохраните в директории term1/mini-review
Имена директорий обязаны быть таким в точности, т.к. скачивать все файлы одновременно буду bash скриптом.
На kodomo установлен пакет биоинформатических программ EMBOSS. В некоторых подсказках указываются полезные команды из EMBOSS, на случай если у вас трудности с написанием своей программы.
Узнать что делает программа пакета:
tfm <имя программы из пакета>
Какие параметры у неё:
<имя программы из пакета> -help более подробно: <имя программы из пакета> -help -verbose
Примеры программ: Чтобы вычислить частоты комплементарных пар A-T и G-C по отдельным геномным ДНК тем, у кого геном состоит из более одной ДНК, то можно разбить файл с геномом на файлы с отдельными ДНК командой
# seqret из пакета EMBOSS seqret -ossingle2 <имя входного фаста файла>
# geecee из пакета EMBOSS geecee <имя входного фаста файла> <имя выходного текстового файла>
- GС состав это процент комплементарных пар G-C от общего числа комплементарных пар в ДНК. Важен потому, что (i) GC состав в геноме примерно одинаков на больших участках генома. Можете проверить, разделив геном своей бактерии на 5 частей. (ii) Геномы разных видов отличаются по GC составу.
- Самый простой способ определения ожидаемого числа встреч данного слова (например, ATG) в геноме известного размера (например, 1 млн пар нуклеотидов). 1) Вычислить частоту букв A, T, G. 2)В предположении, что буквы в каждой позиции генома появляются случайно с вероятностью, равной частоте буквы, и независимо от букв в других позициях, вероятность появления слова ATG начиная с люб ой позиции равна произведению вероятностей для каждой из трех букв. Позиций 1 млн. Способ не самый точный, но для приблизительно оценки ожидаемого числа слова в геноме приемлем (более точные реализованы в программе cbcalc на kodomo)
cbcalc -K -s ATG -o <имя выходного файла> <имя входного фаста файла> # без указания -o выдает ответ в STDOUT, подробнее в cbcalc -h # (-B, -M, -P другие методы вычисления ожидаемого) # Автор программы - Ваня Русинов, можете его спрашивать.
- программа wordcount из пакета EMBOSS считает число встреч каждого из слов заданной длины в геноме
# wordcount из пакета EMBOSS wordcount -wordsize 1 <имя входного фаста файла> <имя выходного текстового файла> # Выдаёт число всех слов длины 1, т.е. букв, встретившихся в последовательности. # Можно и так, но придётся подождать подольше: wordcount -wordsize 40 -mincount 20 <имя входного фаста файла> <имя выходного текстового файла> # результат - все слова длины 40, которые встречаются в геноме не менее 20 раз, и для каждого - число встреч в геноме
- Прочитайте про GC skew в wiki. Для вычисления кумулятивного графика GC skew можно использовать
сервис. Есть и другие.
- Для тем про кодирующие последовательности генов белков следует скачать и распаковать файл "... cds_from_genomic.fna.gz" с кодирующими последовательностями всех генов белков. Он лежит по той же ссылке, что и feature table и геном в фаста формате.
Положите этот файл в директорию credits
- Принадлежность генов той или иной категрии определяйте по названиям белков, содержащихся в файле с feature_tables.
- Для поиска открытых рамок считывания в вашем геноме можно использовать программу
# getorf из пакета EMBOSS getorf -table 11 -find 1 -minsize 90 -maxsize 600 -circular <имя входного фаста файла> <имя файла с результатом> # -table 11 значит использовать таблицу генетического кода для бактерий # -find 1 значит, что выдавать трансляции открытых рамок считывания (ORF) от START кодона до STOP кодона # -minsize -- минимальный размер выдаваемых ORF # -maxsize -- максимальный размер выдаваемых ORF # Используя эти параметры можно сократить размер выдачи; легче будет сравниванить с координатами генов из файла feature_table #или так getorf -table 11 -find 3 -minsize 90 -circular <имя входного фаста файла> -filter | grep ">" > <имя выходного файла> # -find 3 значит, выдавать нукл. последовательности ORF # В результате окажутся только строки, содержащие инфо. о координатах ORF
Инициативные темы
Про предсказание оперонов можно посмотреть в этой статье и похожих, видны ниже на той же странице. Современные методы сложнее, чем нахождение квазиоперонов, но все они использут квазиопероны и ищут опероны внутри квазиоперонов.
- Вычислить и сравнить числа генов белков в шести рамках считывания. Простая работа - нужны только координаты генов в геноме.
- Гистограмма длин межгенных промежутков. Тоже технически простая тема. Результат почти наверняка будет не без сюрпризов.
- Статистика белков по категориям достоверности их существования(Uniprot)
Как получить данные о геноме других организмов того же вида или рода
На сайте NCBI genomes перейдите о ссылке Browse by organism.
В окошко внесите название вида или рода. Поиск. Откроется список геномов штаммов данного таксона. Если список не открылся, то следует нажать на Prokaryotes(в скобках указано число геномов.
Смотреть на те геномы, у которых в колонке level - полностью зачернённый кружок, что значит, что геном полностью секвенирован и все ДНК собраны в полные последовательности. ДНК перечислены в колонке Replicons. Репликон - ДНК, которая при делении клетки реплицируется отдельно от других ДНК. Двойное название вроде "chromosome: NC_007530.2/AE017334.2" возникает потому, что одна и та же последовательность лежит в двух разных базах данных.
Перейдя по ссылке Organism name увидите табличку с информацией о всех репликонах.
Как скачать дополнительные данные о белках
Банк UniProt (https://www.uniprot.org/) — основной банк последовательностей белков
- Поиск по протеомам (Proteomes)
- Введите в окошко для поиска название вашего организма. Поиск
Если нет находки — вам не повезло (:.
- Если находки есть, щелкаете по Proteom ID вашего организма
- Далее по ссылке UniProtKB под Map to. Получаете список БЕЛКОВ протеома.
- По ссылке Columns надо добавить или убрать колонки таблицы. Добавьте колонку Protein existence. Добавьте первой колонкой Gene names (ordered locus ). Далее save. Проверьте, что значения в колонке ordered locus такие же, как в вашей хромосомной таблице.
- Потом download, формат tab-separated и далее методами Excel можно соединить дополнительные данные из Uniprot с вашей хромосомной таблицей.
Второе правило Чаргаффа
Для применения статистики нужно выдвинуть так называемую нулевую гипотезу о случайности появления буквы A или буквы T из комплементарной пары A-T на одной цепочке ДНК с вероятностями по 1/2 и независимо друг от друга. Т.е. принять распределение Бернулли и вычислить вероятность случайного появления наблюдаемого или большего отклонения от ожидаемого - число A = число T. См ниже как.
GC состав генома
В статье https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3053387/ в Table 1 перечислены GC составы некоторых видов бактерий из разных отделов бактерий. В обсуждении сравните GC состав вашей бактерии с таковым у других представителей того же отдела.
Анализ k-меров с маленьким k
Найдите k-меры (слова длины k) экстремальные по отклонению от ожидаемого, недопредставленные и перепредставленные. Пороги, принимаемые на основе опыта: cb < 0.8 - слово недопредставлено, cb > 1.2 - перепредставлено. Математического обоснования нет, так что эти пороги не более, чем орентировочные. Для экстремалов по cb надо искать причину. Иногда известна, чаще - нет.
Найдите и опишите повторяющиеся последовательности в геноме, появление которых нельзя объяснить случайностью
Нельзя объяснить случайностью совпадение длинных слов.
Например разных слов длины 30 всего 430 = 260, примерно 10006 = 1018. В геноме число слов длины 30 примерно равно его длине N, т.к. слово может начинаться с 1 нукл, 2го, 3го и т.д. до нуклеотида с номером (длина генома N -20). В геноме длины N имеется N*(N-1)/2 пар слов длины 30, т.е. порядка N2. Вероятность совпадения двух слов выбранных случайно из 1018 слов длины 30 имеет порядок (1/1018). Значит, ожидаемое число пар совпадающих слов равно примерно (1/1018)* N2. Если N порядка миллионов, т.е. 106, то ожидаемое число пар порядка 1/10^6, т.е. вероятность увидеть пару совпадающих слов длины 30 в геноме размера 1 млн очень мала.
Это рассуждение выше не строгое и не даёт точного ответа. Однако даёт представление о порядке интересующих нас величин.
Найдем длинные слова длины 30, встречающиеся в геноме не менее 20 раз, используя wordcount (см. выше)! В моем примере числа 30 и 20 подобрал путем перебора, чтобы получить не слишком много находок, но более одной.
Выберу одно из найденных слов и найду координаты всех таких слов в геноме:
# fuzznuc из пакета EMBOSS fuzznuc -pattern GTTTGTAGCTTACCTATAAGGGATTGAAAC -srevers1 <имя генома в фаста формате> -filter
Получили результат, довольно удивительный в этом примере!
Можно разрешить, например, два несовпадения в слове с геномом с тем которое ищется:
fuzznuc -pattern GTTTGTAGCTTACCTATAAGGGATTGAAAC -srevers1 -pmismatch 2 <имя генома в фаста формате> -filter | wc -l
wc поставил в pipeline чтобы посчитать число находок.
Число находок увеличилось – стало 194 а было 129.
Далее что интересно. Сравнить координаты находок анализируемого слова с координатами генов. Если внутри генов, то это дупликации генов? Каких?
Если нет, то на одной ли цепочки или на разных? Идут ли они близко расположенными парами? Инвертированные повторы (если в паре они на разных цепочках) или тандемные повторы (на одной цепочке). Всякие такие повторы крайне интересны, даже если объяснить их вам не удается.
Открытие знаменитых CRISPR-Cas систем, использующиеся для генной инженерии и даже генной терапии людей, началось с того, что в 90х годах японский учёный (сейчас не помню фамилии, надо посмотреть) обнаружил в геноме повторяющиеся последовательности - странные потому что не мог их объяснить. Потом их назвали CRISPR (R от repeat), лет через 10 кое-какое объяснение было найдено, и еще лет через пять стали использовать для генной инженерии. Дата по памяти, могу ошибиться +/- пять лет. Если спросите - посмотрю и отвечу.
Найдите квазиопероны в геноме
Постройте гистограмму числа "квазиоперонов" по числу генов. У бактерий и архей оперон - участок ДНК с одним или несколькими генами белков, транскрибируемый в одну матричную ДНК. Таким образом, гены в одном опероне закодированы на одной цепочке ДНК. Как правило, расстояние между ними небольшое.
Иногда используют простейший способ предсказания оперонов. "Квазиопероном" назовем максимальную последовательность генов, закодированных на одной цепочке с промежутками между генами не более порога, например, 100 п.н. Квазиоперон может состоять и из одного гена.
Постройте гистограмму числа квазиоперонов по числу генов в квазиопероне в вашем геноме.
Постройте гистограмму числа "квазиоперонов" в зависимости от порога на расстояние.Советую сделать ячейку с параметром порог длины с числом 100. Тогда изменение числа квазиоперонов при изменении порога получается изменением значения этого параметра.
Число генов в квазиопероне легко посчитать с помощью СЧЁТЕСЛИ. И гистограмму недолго построить.
Проверьте гипотезу о том, что гены распределены по цепочкам случайно с вероятностями 0,5 Пусть в вашем геноме 5000 генов белков и 2450 - на одной цепи, 2550 - на другой. Отклонение от ожидаемого числа 2500 равно 50. Надо ответить на вопрос возможно ли получить такое или большее отклонение при независимом случайном выборе цепочки для каждого гена.
- Подбросим монетку 5000 раз, посчитаем сколько раз выпал орел, каково отклонение от ожидаемого 2500 и сравним с наблюдаемым нами отклонением 50. Если больше или равно - ставим плюс, если меньше - ставим минус.
- Повторим эксперимент, допустим, 100 раз (а лучше - 1000).
- Пусть из 100 экспериментов только один раз отклонение оказалось больше или равно наблюдаемому нами 50. Значит, вероятность увидеть отклонение 50 или больше примерно равна 1/100 = 0.01. Вывод. Если мы готовы считать, что событие с вероятностью 0.01 маловероятное, то полученное нами отклонение 50 противоречит гипотезе о независимом случайном равновероятном выборе цепочки для гена. Значит, надо искать причины.
Симулируем бросание монетки по числу генов и повторяем этот эксперимент 100 раз (можно больше).
Первое испытание - в колонке 1. Используйте СЛУЧМЕЖДУ нулем ("решка") и единицей ("орел"). Функция выдает 0 или 1 с равной вероятностью.
Распространите формулу вниз столько раз, сколько генов в вашем геноме. В этом же столбце (например, в верхних ячейках) рассчитайте число орлов (СЧЁТЕСЛИ) и отклонение числа орлов от ожидаемого - без знака!
Распространите все формулы в сто соседних столбцов. Посчитайте сколько раз отклонение больше или равно тому, которое вы обнаружили в своем геноме.
Сделайте вывод.
underconstruction
Поправлю своевременно или несколько позже:)