Учебный сайт Полины Байкузиной | |||
Главная | Семестры | О себе | Ссылки |
Сборка de novoЗадание 1. В данном задании нужно было пакетом velvet cобрать из всех чтений своего набора (прошедших очистку) контиги без использования референса. Пакет velvet состоит из двух программ: velveth для выделения k-меров из чтений ("hashing") и velvetg для сборки контигов на основе графа k-меров. Команды: velveth Assem 31 -fastq -short outfile.fastq velvetg Assem Использовавшаяся длина k-мера равна 31. Получено 980 контигов, N50 = 180, максимальная длина контига 910 (рис.1). Файл с контигами, полученный в результате работы velvet. Задание 2. В данном задании нужно было программой blastn (алгоритм megablast) сравнить получившиеся контиги с последовательностью хромосомы. Команды: makeblastdb -in chr3.fasta -dbtype nucl blastn -db chr3.fasta -query Assem/contigs.fa -outfmt 6 -out contigs.out Результаты работы blastn представлены в таблице. В файле представлены таблица со всеми картировавшимися контигами и таблица с контигами, картировавшимися только единственным образом на хромосому: их список (в порядке возрастания меньшей координаты по хромосоме), также указана величина разрывов/перекрытий между ними. Из таблицы можно увидеть контиги, которые картировались на одно и на несколько мест. Возможно, что контиги, откартировавшиеся несколько раз, представляют повторы. Так в некоторых случаях количество повторов достигает более 13 тысяч. Также есть контиги с разными названиями, но последовательности которых сильно не отличаются. На рис.2 представлен один из таких примеров. Контиги NODE_2 и NODE_4 картировались в одно и то же место в хромосоме. Контиги имеют одинаковую длину. К тому же последовательность контига NODE_2 полностью идентична последовательности хромосомы в данном месте. У контига NODE_4 обнаружился 1 полиморфизм. Для контигов, имеющих перекрывание, наиболее характерная длина участка перекрывания равна 30. При построении выравнивания для контигов NODE_952 и NODE_951 оказалось, что перекрывающиеся участки совершенно идентичны (рис.3). Но объединения не происходит. Также есть контиги с более длинными участками перекрывания. Например, для контигов NODE_139 и NODE_142 длина перекрывания равна 57 (рис.4). У контига NODE_142 обнаружено 2 полиморфизма, что не позволяет программе объединить эти два контига. Разрывы, возможно, означают некодирующие области, которые не были отсеквенированы и не могут быть покрыты данными контигами. |
© Полина Байкузина, 2014