Третий семестр
Сборка de novoСборка и выравнивнаие контигов с хромосомойВ предыдущем практикуме мы собирали геном, опираясь на рефересный. Но в этот раз попытаемся собрать его без подсказок. Возьмем очищенные программой Trimmomatic риды и подадим их программе velveth. Она выделит все возможные k-меры (нуклеотидные последовательности длиной k - в нашем случае k = 31). velveth chr11_de_novo 31 -fastq -short chr11_after_screen.fastqДалее другая программа должна будет собрать k-меры в контиги, построив ориентированный граф де Брёйна. velvetg chr11_de_novo > velvetg_dataРезультаты таковы: N50 - 266, максимальная длина контига - 1633. файл Log с информацией о N50 ; файл с последовательностями контигов Теперь проверим результат - выравним контиги с рефересной последовательностью. makeblastdb -in chr11.fasta -dbtype nuclИ произведем поиск по ней. blastn -db chr11.fasta -query chr11_de_novo/contig.fa -outfmt 6 -out align_contigВ результате была получена таблица , содержащая информацию о 17056 выравниваниях. При этом последовательностей query всего 113. Все последовательности, которые неоднократно наложились на 11 хромосому представлены на Рисунке 1. Рисунок 1. Список повторяющихся контигов с указанием количества повторов. Таблицу с контигами можно найти здесь. На первом листе представлены все контиги, на листе Uniq_contig представлены однократно встречающиеся. Всего контигов, которые единственным образом картируются на хромосому 107. Они расположены по возрастанию начальной по прямой цепи координате. Отрицательным значениям в последней колонке соответсвуют перекрытия, положительным - разрывы. Итак, вычислив величину разрывов и перекрытий у контигов было установлено, что друг за дружкой легли контиги только в двух местах, встретилось 82 перекрытия и 22 разрыва. Анализ полученных результатовКонтиги, которые многократно легли на последовательность хромосомыПредположительно, повторы могут являться мобильными элементами. Я взяла самый повторяющийся контиг - NODE_20_length_211_cov_5.232227. Был осуществлен поиск blastn по базе human genomic plus transcript.
Результаты представлены на Рисунке 2. Последовательность контига найдена и сборке hg38 (самая новая) и в CHM1_1.1.
Самое интересное, что последовательность контига также найдена в траскрипте гена кальциевого канала
(который обсуждался в прошлом практикуме относительно полиморфизмов).
Далее я посмотрела встречаемость данной последовательности во всем геноме человека. Как минимум 20000 находок (максимальная выдача blast) было определено.
Все были с хорошим E-value (min 2e-58) и процентом идентечности (min 78 %). Важно заметить, что среди выдачи были последовательности траскриптов.
Правда было их не очень много (576). Особое внимание следует уделить находкам с необычным названием ALU (76 находки). Теперь посмотрим на участок 11 хромосомы, где находится данный повтор, с помощью UCSC Genome Browser. Структура представлена на Рисунке 3.
Мы можем увидеть две изоформы белка кальциевого канала. Только в одном варианте транскрипта экзона (более длинном) есть наш повтор.
Итак, что у нас в итоге: длина повтора 250, встречается в транскриптоме, влияют на сплайсинг, некоторые ассоциированы с раком (находки с Alu), не содержит кодирующих последовательностей (своих собственных белков). Вывод: данный повтор является распространенным ретротранспозоном, встречающимся в геноме человека. Их называют ALU и они образуют целое семейство. Alu, встраиваясь в ген, может вносить в него дополнительные сайты сплайсинга, увеличивая разнообразие считываемых с гена изоформ мРНК. Про него можно узнать здесь ПерекрытияПочему при существовании перекрытий программа не объединила несколько контигов в один?
РазрывыТаблица с выравниванием одиночных контигов отсортирована по началу в геноме по прямой цепи. В этой таблице выделяются две области (по координатам): 17406855-17409834, и 116618794-116658814. Т.е. получается, что мы секвенировали не весь геном, и даже не всю хромосому, а конкретный участок, содержащий определенный ген (KCNJ11 - тот самый, мутации в котором вызывают нарушение обмена углеводов и липидов, приводя к диабету и атеросклерозу) и (BUD13 и ZPR1). Вот плчему полиморфизмы были найдены только в этих генах. Т.к. секвенирование генома человека имеет медицинские цели, то и секвенируют только то, что необходимо для диагностики (необходимые экзоны). Почти все разрывы, которые попадались, были либо в интронах, либо в межгенной области. Намеренный поиск выявил разрыв (53 нуклеотида) внутри гена KCNJ11 - см. Рисунок 5. Объяснение: вероятно ошибка программы.
Зависимость качества сборки от длины k-меровПоследовательно были запущены velveth и velvetg c указанием k-мера меньшей длины. Результаты представлены в таблице. Самая лучшая сборка из всех представленных получится при k=29 (возможно, это связано с тем, что много перекрытий было длиной 29), а худшая при k=27. Так как чем лучше N50, тем лучше сборка.
Дата последнего изменения: 10.10.15
© 2014 Макарова Надежда |