Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2021

Google Chrome отказывается скачивать файлы Word (.doc и .docx) а образцы из журналов как раз в этом формате. Используйте другие браузеры, например, Mozilla. Или скачайте образцы с сервера kodomo в директории P:\y21\term1\Minireview

Указания по составлению и оформлению мини-обзора

[ Про геном и протеом бактерии ]

[ Bioinformatics ] [ JBCB ] [ Microorganisms ]

Эти образцы содержатся также на сервере kodomo в папке с адресом /P/y21/term1/

Последний образец предлагаю с осторожностью, т.к. когда удалите ненужную вам колонку слева, то захочется занять пустое место, т.е. переформатировать страницу [Боротся с Word бывает сложно:( ].

Оставил, т.к. английский текст в образце объясняет, что писать в каком разделе.

Вам решать какой образец выбрать. Можно и самому сформатировать текст в Word, подражая образцу [3].

Завешенный текст следует сохранить в формате pdf для предоставления на проверку.

28 нояб. Несколько упорядочил текст.

ААл


Как сделать доступными для проверки преподавателем мини-обзор, и данные и собственные программы использованные при написании мини-обзора

Два способа

  1. Создать в своём аккаунте на kodomo директорию
    • ~/public_html эта директория автоматически становится видной в интернет

Проверьте, что права на чтение есть для всех (other)

https://kodomo.fbb.msu.ru/~<ваше пользовательское имя на kodomo>/term1/mini_review/<имя файла>

Например, у меня в директории https://kodomo.fbb.msu.ru/~aba/term1/y19 в файле akadem_groups-sem1.docx лежит список студентов, поступивших на ФББ в 2019 году.

Его адрес в интернет такой: https://kodomo.fbb.msu.ru/~aba/term1/y19/akadem_groups-sem1.docx

Проверьте:)

  1. Сохраните мини-обзор в формате .pdf на своём google диске (Upload => File).

Файлы с данными и программами сохраните в директории term1/mini-review

Имена директорий обязаны быть таким в точности, т.к. скачивать все файлы одновременно буду bash скриптом.


На kodomo установлен пакет биоинформатических программ EMBOSS. В некоторых подсказках указываются полезные команды из EMBOSS, на случай если у вас трудности с написанием своей программы.

Узнать что делает программа пакета:

tfm <имя программы из пакета>

Какие параметры у неё:

<имя программы из пакета> -help
более подробно:
<имя программы из пакета> -help -verbose

Примеры программ: Чтобы вычислить частоты комплементарных пар A-T и G-C по отдельным геномным ДНК тем, у кого геном состоит из более одной ДНК, то можно разбить файл с геномом на файлы с отдельными ДНК командой

# seqret из пакета EMBOSS
seqret -ossingle2 <имя входного фаста файла>

# geecee из пакета EMBOSS
geecee <имя входного фаста файла> <имя выходного текстового файла>

cbcalc -K -s ATG -o <имя выходного файла> <имя входного фаста файла> 
# без указания -o выдает ответ в STDOUT, подробнее в cbcalc -h  
# (-B, -M, -P другие методы вычисления ожидаемого)
# Автор программы - Ваня Русинов, можете его спрашивать. 

# wordcount из пакета EMBOSS
wordcount -wordsize 1 <имя входного фаста файла> <имя выходного текстового файла>
# Выдаёт число всех слов длины 1, т.е. букв, встретившихся в последовательности.
# Можно и так, но придётся подождать подольше:
wordcount -wordsize 40 -mincount 20 <имя входного фаста файла> <имя выходного текстового файла>  
# результат - все слова длины 40, которые встречаются в геноме не менее 20 раз, и для каждого - число встреч в геноме

Положите этот файл в директорию credits


# getorf из пакета EMBOSS
getorf -table 11 -find 1 -minsize 90 -maxsize 600 -circular  <имя входного фаста файла> <имя файла с результатом> 
# -table 11 значит использовать таблицу генетического кода для бактерий
# -find 1 значит, что выдавать трансляции открытых рамок считывания (ORF) от START кодона до STOP кодона 
# -minsize -- минимальный размер выдаваемых ORF
# -maxsize -- максимальный размер выдаваемых ORF
# Используя эти параметры можно сократить размер выдачи; легче будет сравниванить с координатами генов из файла feature_table

#или так
getorf -table 11 -find 3 -minsize 90 -circular <имя входного фаста файла> -filter | grep ">" > <имя выходного файла>
# -find 3 значит, выдавать нукл. последовательности ORF
# В результате окажутся только строки, содержащие инфо. о координатах ORF

Инициативные темы

Как получить данные о геноме других организмов того же вида или рода

На сайте NCBI genomes перейдите о ссылке Browse by organism.

В окошко внесите название вида или рода. Поиск. Откроется список геномов штаммов данного таксона. Если список не открылся, то следует нажать на Prokaryotes(в скобках указано число геномов.

Смотреть на те геномы, у которых в колонке level - полностью зачернённый кружок, что значит, что геном полностью секвенирован и все ДНК собраны в полные последовательности. ДНК перечислены в колонке Replicons. Репликон - ДНК, которая при делении клетки реплицируется отдельно от других ДНК. Двойное название вроде "chromosome: NC_007530.2/AE017334.2" возникает потому, что одна и та же последовательность лежит в двух разных базах данных.

Перейдя по ссылке Organism name увидите табличку с информацией о всех репликонах.

Как скачать дополнительные данные о белках

Второе правило Чаргаффа

Для применения статистики нужно выдвинуть так называемую нулевую гипотезу о случайности появления буквы A или буквы T из комплементарной пары A-T на одной цепочке ДНК с вероятностями по 1/2 и независимо друг от друга. Т.е. принять распределение Бернулли и вычислить вероятность случайного появления наблюдаемого или большего отклонения от ожидаемого - число A = число T. См ниже как.

GC состав генома

В статье https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3053387/ в Table 1 перечислены GC составы некоторых видов бактерий из разных отделов бактерий. В обсуждении сравните GC состав вашей бактерии с таковым у других представителей того же отдела.

Анализ k-меров с маленьким k

Найдите k-меры (слова длины k) экстремальные по отклонению от ожидаемого, недопредставленные и перепредставленные. Пороги, принимаемые на основе опыта: cb < 0.8 - слово недопредставлено, cb > 1.2 - перепредставлено. Математического обоснования нет, так что эти пороги не более, чем орентировочные. Для экстремалов по cb надо искать причину. Иногда известна, чаще - нет.

Найдите и опишите повторяющиеся последовательности в геноме, появление которых нельзя объяснить случайностью

Нельзя объяснить случайностью совпадение длинных слов.

Например разных слов длины 30 всего 430 = 260, примерно 10006 = 1018. В геноме число слов длины 30 примерно равно его длине N, т.к. слово может начинаться с 1 нукл, 2го, 3го и т.д. до нуклеотида с номером (длина генома N -20). В геноме длины N имеется N*(N-1)/2 пар слов длины 30, т.е. порядка N2. Вероятность совпадения двух слов выбранных случайно из 1018 слов длины 30 имеет порядок (1/1018). Значит, ожидаемое число пар совпадающих слов равно примерно (1/1018)* N2. Если N порядка миллионов, т.е. 106, то ожидаемое число пар порядка 1/10^6, т.е. вероятность увидеть пару совпадающих слов длины 30 в геноме размера 1 млн очень мала.

Это рассуждение выше не строгое и не даёт точного ответа. Однако даёт представление о порядке интересующих нас величин.

Найдем длинные слова длины 30, встречающиеся в геноме не менее 20 раз, используя wordcount (см. выше)! В моем примере числа 30 и 20 подобрал путем перебора, чтобы получить не слишком много находок, но более одной.

Выберу одно из найденных слов и найду координаты всех таких слов в геноме:

# fuzznuc из пакета EMBOSS
fuzznuc -pattern GTTTGTAGCTTACCTATAAGGGATTGAAAC -srevers1 <имя генома в фаста формате> -filter

Получили результат, довольно удивительный в этом примере!

Можно разрешить, например, два несовпадения в слове с геномом с тем которое ищется:

fuzznuc -pattern GTTTGTAGCTTACCTATAAGGGATTGAAAC -srevers1 -pmismatch 2 <имя генома в фаста формате> -filter | wc -l

wc поставил в pipeline чтобы посчитать число находок.

Число находок увеличилось – стало 194 а было 129.

Далее что интересно. Сравнить координаты находок анализируемого слова с координатами генов. Если внутри генов, то это дупликации генов? Каких?

Если нет, то на одной ли цепочки или на разных? Идут ли они близко расположенными парами? Инвертированные повторы (если в паре они на разных цепочках) или тандемные повторы (на одной цепочке). Всякие такие повторы крайне интересны, даже если объяснить их вам не удается.

Открытие знаменитых CRISPR-Cas систем, использующиеся для генной инженерии и даже генной терапии людей, началось с того, что в 90х годах японский учёный (сейчас не помню фамилии, надо посмотреть) обнаружил в геноме повторяющиеся последовательности - странные потому что не мог их объяснить. Потом их назвали CRISPR (R от repeat), лет через 10 кое-какое объяснение было найдено, и еще лет через пять стали использовать для генной инженерии. Дата по памяти, могу ошибиться +/- пять лет. Если спросите - посмотрю и отвечу.

Найдите квазиопероны в геноме

Иногда используют простейший способ предсказания оперонов. "Квазиопероном" назовем максимальную последовательность генов, закодированных на одной цепочке с промежутками между генами не более порога, например, 100 п.н. Квазиоперон может состоять и из одного гена.

Постройте гистограмму числа квазиоперонов по числу генов в квазиопероне в вашем геноме.

Число генов в квазиопероне легко посчитать с помощью СЧЁТЕСЛИ. И гистограмму недолго построить.

Симулируем бросание монетки по числу генов и повторяем этот эксперимент 100 раз (можно больше).

Первое испытание - в колонке 1. Используйте СЛУЧМЕЖДУ нулем ("решка") и единицей ("орел"). Функция выдает 0 или 1 с равной вероятностью.

Распространите формулу вниз столько раз, сколько генов в вашем геноме. В этом же столбце (например, в верхних ячейках) рассчитайте число орлов (СЧЁТЕСЛИ) и отклонение числа орлов от ожидаемого - без знака!

Распространите все формулы в сто соседних столбцов. Посчитайте сколько раз отклонение больше или равно тому, которое вы обнаружили в своем геноме.

Сделайте вывод.

2021/1/mini-review (последним исправлял пользователь is_rusinov 2021-12-17 08:36:49)