Учебная страница курса биоинформатики,
год поступления 2020
Задания практикума 10
Напишите короткий отчёт о крупных эволюционных событиях, на основе примеров, обнаруживаемых в геномах 3-5 штаммов одного вида бактерий или архей
Отчёт должен быть на вашем сайте со ссылкой со страницы семестра.
Крупным эволюционным событием будем считать событие, единовременно затрагивающее участок более 100 п.н. События бывают такие.
- Делеция участка ДНК
- Вставка участка ДНК за счёт
- либо горизонтального переноса
- либо дупликации участка собственной ДНК
- Инверсия участка ДНК
- Транслокация участка ДНК с инверсией или без неё
Такие события обнаруживаются с помощью построения выравнивания близкородственных геномов. Если что-то крупное есть в одних геномах и отсутствует в других близкородственных геномах, то значит что-то произошло в эволюции как одно крупное событие единовременно. Потому, что изменение > 100п.н. с помощью многочисленных последовательных локальных мутаций крайне маловероятно в близкородственных геномах. А механизмы крупных перестроек в клеточных организмах имеются.
Для построения множественного выравнивания генома советую взять программу NPG-explorer ( ), специально созданную для этого. См. в лекции про неё. Результат её работы - нуклеотидный пангеном (НПГ)
НПГ сохраните в поддиректории вашей директории ...term3/block2/credits. Мне потребуется при проверке.
Не забудьте записаться в очередь, когда выполните все обязательные задания.
На вопросы постараюсь отвечать своевременно
— ААл
1. Выберите 3-5 штаммов одного вида бактерий или архей с известными полностью собранными геномами
Составляет задание, выполняемое в день занятия.
- Советую брать вид с геномом из одной хромосомы, не считая плазмид. Так будет проще.
- Выбирайте штаммы с полностью собранной хромосомой (не контиги или скэффолды). Если есть плазмиды советую их не брать для простоты
- Запомните AC выбранных хромосом (лучше согласно INSDC, так как программа NPG-explorer закачивает последовательности через ENA). В инструкции написано как указывать идентификаторы Refseq (вида NC_..., NZ_....) если выбрали их
- Проверьте, что по этим AC лежат действительно полные записи с аннотациями и последовательностью хромосомы, а не ссылка на последовательности отдельных контигов.
2. Построение нуклеотидного пангенома с помощью NPG-explorer
См как и где создать единственный входной файл для NPG-explorer подсказки
Постройте НПГ следуя инструкциям.
- При запуске всех программ перенаправьте выходные потоки в log-файлы. Эти log файлы сделайте доступными в отчёте.
При запуске npge MakePangenome оставьте параметры по умолчанию или, если запускали Examine (не обязательно), учтите рекомендацию examine/identity_recommended.txt
Для контроля прочитайте все ли в порядке в log-файлах. Основные выходные файлы: trees/nj-global-tree.tre (дерево геномов, построенное на основе объединённого выравнивания s-блоков), genes/features.bs (с описаниями генов), mutations/mutations.tsv (с описанием всех мутаций в блоках), mutations/consensuses.fasta (с консенсусами всех блоков), pangenome/pangenome.info, pangenome/pangenome.bs (с блоками, т.е. выравниваниями), pangenome/pangenome.bi.
- Прочитайте в презентации слайды о типах блоков и критериях, которым удовлетворяет НПГ.
3. Опишите стабильное ядро нуклеотидного пангенома
- Статистическая информация о блоках разных типов содержится в файле pangenome/pangenome.info
- в отчёте укажите
- число блоков (s-blocks)
- размер нуклеотидного ядра как процент нуклеотидов в ядре от числа нуклеотидов во всех геномах
- процент консервативных колонок в объединённом выравнивании s-блоков
Филогенетическое дерево штаммов в выходных файлах НПГ строится по стабильному ядру, т.е. объединённому выравниванию всех s-блоков. Его полезно использовать, чтобы определить на какой ветви дерева произошло то или иное крупное эволюционное событие. Или чтобы убедиться, что одинаковые события произошли независимо на разных ветвях дерева. И такое не бывает.
4. и 5. сами выберите темы заданий
Минимальный объём работы для зачёта - два примера крупных эволюционных события разных типов. Например, тех которые указаны в заданиях с номерами 4., 5., можно 6. (хотя оно не про эволюционное событие).
Не обязательно выбирать из этих п.п. Можете взять одно из этих и найти пример эволюционного события какого-нибудь другого типа. Или найти два события других разных типов. Можно и больше, как понимаете, всё вам в плюс.
Ещё раз, для зачёта заданий 4. и 5. нужны не менее двух примеров событий разных типов
Нахождение примеров явных ошибок в аннотации генов (пункт 6. ниже) идёт в зачёт 4. и 5. как одно событие.
Второй вариант зачёта заданий 4. и 5. вместе. А именно, сделайте небольшое исследование одного типа эволюционных событий, можно с ограничениями.
Что-нибудь такое: исследование всех делеций длиннее 5000 п.н. и привязка их к филогенетическому дереву штаммов, которое выдаёт НПГ. Рисовать дерево из файла в формате .tre (скобочная структура) умеет множество программ, например MEGA.
Или такое: исследование всех делеций в одном геноме с нахождением нескольких наиболее интересных примеров делятированных генов с известной функцией. Всё. что угодно, что придумаете.
Или такое: найдите горизонтальные переносы в один (или несколько) геномов из отобранных. Проверить и узнать из каких бактерий произошёл горизонтальный перенос можно с помощью нуклеотидного blast.
Самое лучшее: придумайте самостоятельно тему мини-исследования. Такую, чтобы было интересно вам, следовательно, и проверяющему (мне).
Вы видите. Задание этого практикума во многом свободное. В том числе, оно направленно на умение придумывать интересные вопросы, и исследовать их. Соответственно буду премировать за (a) За интересные примеры и исследования (b) За понятный текст с объяснениями. Текст может быть коротким, но понятным и основанном на результатах (c) За творческий подход
4. Опишите [самую] крупную делецию в каждом геноме
Таблица с инфо о всех блоках всех типов (один блок - одна строка)содержится в файле pangenome/pangenome.bi. Её можно открыть в Excel. Формат файла см. в подсказках
- В отчёте приведите табличку: геном, имя блока, подтверждающего делецию, длину делеции, имена одного или нескольких делятированных генов
5. Опишите одну перестановку синтений (g-блоков) в одном или некоторых некоторых геномах
6. Приведите примеры ошибок аннотации гена (хотя бы один)
Почти уверен, что ошибка аннотации гена, очевидная из сравнения геномов, найдется в ваших геномах. Бывает всякое, но доказать ошибок нет трудно :)
- Где искать ошибки? В длинных s- или h-блоках.
- Как удостовериться, что ошибка? Легко: в одном фрагменте блока аннотирован ген, а в другом (других) фрагментах на том же самом месте то ли гена нет, то ли ген аннотирован в другой рамке считывания, то ли аннотирован и называется совершенно иначе. Это странно при совпадении нуклеотидных последовательностей более, чем на 90%, и сохранении сигналов. В частности стоп-кодонов и инициаторных кодонов.
- Как искать - глазами, перескакивая по генам (Ctrl и стрелки вправо, влево) в нижнем окне qnpge.
- В отчёте опишите найденный беспорядок и как должно быть на самом деле.
Дополнительное по НПГ. Проанализируйте все крупные делеции, вставки в геномах
- Инфо содержится в файле pangenome/pangenome.bi
- Придумайте и напишите на какой вопрос хотите получить ответ. И сделайте, что сможете, для ответа.
- Полезно сопоставить делеции,вставки с деревом геномов ( trees/nj-global-tree.tre) - чтобы решить вопрос - делеция или вставка.
- Требование: должно быть интересно вам (а, значит, и мне при проверке)
Дополнительное по НПГ Проанализируйте крупные дупликации в геномах
- Инфо содержится в файле pangenome/pangenome.bi
- Задание творческое. Придумайте и напишите на какой вопрос хотите получить ответ. И сделайте, что сможете, для ответа. На вопросы постараюсь отвечать своевременно.
- Требование: должно быть интересно вам (а, значит, и мне при проверке)
Пожалуй, это конец задания
Не рекомендуемый и более трудоёмкий вариант. Но готов оценивать его без априорного снижения баллов
Запасной вариант выполнения задания для получения зачёта
- Прочитайте слайды про карты сходства blast2seq
- Постройте с помощью blast2seq три попарные карты сходства для хромосом трех штаммов одного вида прокариот и приведите их в отчёте. Постарайтесь найти ответы на те же вопросы, которые есть в основном варианте задания. Для сопоставления координат блока из трех последовательностей придется скачивать таблицы находок для трех карт, и сравнивать их. Технически сложнее, но можно ответить, с оговорками, на вопросы.
- Одно задание дополнительное: привести и обосновать координаты одного блока из трех последовательностей.
В процессе редактирования прошлогодней версии