Сборка de novo

Anna Zheltova

Third term (Третий семестр):

ChemSketch

A-, B-, Z- form DNA (A-, B-, Z-формы ДНК)

Complexes of DNA-protein (Комплексы ДНК-белок)

Reading Sanger sequencing (Прочтение последовательностей по Сэнгеру)

Nucleotide databanks (Нуклеотидные банки данных)

Blast

EMBOSS

Aligning genomes (Выравнивание геномов)

The genes of prokaryotes (Гены прокариот)

The genes of eukaryotes (Гены эукариот)

Search for snp (Поиск полиморфизмов)

de novo Assembly (Сборка de novo)

Homepage (Главная страница)

Задание1

Пакетом velvet были собраны из всех чтений (out.fastq), прошедших очистку, контиги без использования референса. Была использована длина k-мера, равная 31.

Далее была проведена сборка полученных контигов

Фрагмент с указанием используемой команды

Файл с контигами, получившийся в результате работы программы (contigs.fa)

Результат работы программы:

N50 и размер самого длинного контига получившейся сборки:

• N50 = 294

• Размер = 1339

Задание 2

Программой blastn (алгоритм megablast) было проведено сравнение получившихся контигов с последовательностью хромосомы.

После чего был проведен blastn для всех контигов

Были описаны те контиги, которые единственным образом картируются на хромосому: их список (в порядке возрастания меньшей координаты по хромосоме)

22 континга были картированы на хромосому более, чем одним образом – выделены оттенками желтого в таблице.

6 контингов не были картированы на хромосому – выделены красным цветом.

255 контингов были картированы на хромосому единственным образом.

Обнаружено огромное число разрывов и перекрываний. Из 255 контингов только 3 не имеет ни разрывов, ни перекрываний.

Разрывы между контингами можно объяснить тем, что была взята последовательность экзома. Экзом — часть генома, представляющая экзоны, то есть последовательности, которые транскрибируются на матричную РНК после того, как интроны удаляются в процессе сплайсинга РНК. Таким образом, экзом отличается от транскриптома, включающего в себя всю совокупность транскриптов.

Экзом человека содержит приблизительно 180 тысяч экзонов, что соответствует примерно 1 % всего генома или 30 миллионам пар нуклеотидов.

Что же касается перекрываний, то их существование можно объяснить так:

Перекрывание генов впервые было обнаружено у вирусов. Перекрывание позволяет вирусам разместить большое количество информации на небольших молекулах ДНК. Геном человека достаточно большой, чтобы обойтись без таких перекрываний. Однако и в геноме человека, хотя и относительно редко, перекрывание генов также имеется. Например, в ряде случаев обнаружили считывание РНК с разных цепей одного участка ДНК. Это приводит к образованию таких РНК, которые в силу комплементарности могут взаимодействовать друг с другом в клетке, образуя в результате двунитевые РНК, а в двунитевом виде мРНК не способна к трансляции. Хотя, стоит отметить, что то происходит достаточно редко. Поэтому примем этот факт во внимание и отметим, что подобные разрывы также могли образоваться в результате несовершенства программы. Т.е. в случае существования разрыва, в некоторых случая, вероятно, можно было объединить два континга.

Многократно откартированные контиги. Геном эукариот характеризуется повторенностью последовательностей. Повторы занимают по крайней мере 50% генома человека. Вероятно, многократно откартированные континги содержат сегментарные дупликации, или множественные копии мобильных элементов, или палидромы, а возможно и транспозоны.

Кстати, интересный факт:

В геноме человека встречаются мобильные элементы четырех типов.

• long interspersed elements ( LINE , длина 6 т.п.о., число копий 8.5*105, число семейств 3, 21% генома);

• short interspersed elements ( SINE , 100-400 п.о., 1.5*106, 3, 13% генома);

• LTR retrotransposons (1.5-11 т.п.о., 4.5*105, ?100, 8%);

• ВNA transposons (80-3000 п.о., 3*105, ?100, 3%).

© 2014 Anna Zheltova (Анна Желтова)