Учебный сайт Полины Байкузиной

Главная Семестры О себе Ссылки

Сборка de novo

Задание 1.

В данном задании нужно было пакетом velvet cобрать из всех чтений своего набора (прошедших очистку) контиги без использования референса. Пакет velvet состоит из двух программ: velveth для выделения k-меров из чтений ("hashing") и velvetg для сборки контигов на основе графа k-меров.

Команды:

velveth Assem 31 -fastq -short outfile.fastq

velvetg Assem

Использовавшаяся длина k-мера равна 31. Получено 980 контигов, N50 = 180, максимальная длина контига 910 (рис.1).

Рис.1. Результат программы velvetg.

Файл с контигами, полученный в результате работы velvet.

Задание 2.

В данном задании нужно было программой blastn (алгоритм megablast) сравнить получившиеся контиги с последовательностью хромосомы.

Команды:

makeblastdb -in chr3.fasta -dbtype nucl

blastn -db chr3.fasta -query Assem/contigs.fa -outfmt 6 -out contigs.out


Результаты работы blastn представлены в таблице. В файле представлены таблица со всеми картировавшимися контигами и таблица с контигами, картировавшимися только единственным образом на хромосому: их список (в порядке возрастания меньшей координаты по хромосоме), также указана величина разрывов/перекрытий между ними.

Из таблицы можно увидеть контиги, которые картировались на одно и на несколько мест. Возможно, что контиги, откартировавшиеся несколько раз, представляют повторы. Так в некоторых случаях количество повторов достигает более 13 тысяч.

Также есть контиги с разными названиями, но последовательности которых сильно не отличаются. На рис.2 представлен один из таких примеров. Контиги NODE_2 и NODE_4 картировались в одно и то же место в хромосоме. Контиги имеют одинаковую длину. К тому же последовательность контига NODE_2 полностью идентична последовательности хромосомы в данном месте. У контига NODE_4 обнаружился 1 полиморфизм.

Рис.2. Выравнивание контигов NODE_2 и NODE_4.

Для контигов, имеющих перекрывание, наиболее характерная длина участка перекрывания равна 30. При построении выравнивания для контигов NODE_952 и NODE_951 оказалось, что перекрывающиеся участки совершенно идентичны (рис.3). Но объединения не происходит.

Рис.3. Выравнивание контигов NODE_952 и NODE_951.

Также есть контиги с более длинными участками перекрывания. Например, для контигов NODE_139 и NODE_142 длина перекрывания равна 57 (рис.4). У контига NODE_142 обнаружено 2 полиморфизма, что не позволяет программе объединить эти два контига.

Рис.4. Выравнивание контигов NODE_139 и NODE_142.

Разрывы, возможно, означают некодирующие области, которые не были отсеквенированы и не могут быть покрыты данными контигами.


© Полина Байкузина, 2014