Прежде всего, в данном задании необходимо было собрать консеснсусную псоледовательность, используя два прочтения цени: прямое и обратное.
Нами были определены нечитаемые участки хроматограммы:
Для выполнения данного задания, при момощи UGENE были получены последовательности прямой и обратной цепочек. Далее к ним были подобраны комплиментарные последовательности. Для получения результатов, нам был получен контиг, который в свою очередь был отредактирован, поскольку в последовательности имелись проблемные участки, которые не были прочитаны UGENE.
Программой UGENE были так же удалены нечитаемые учатки с конца и с начала. Таким образом, мы можем сказать, что нечитаемые участки хроматоргаммы имеют следующие координаты:
В итоге, мы получили следующие файлы:
В последователеьностях было выялено 22 проблемных участка: они включали в себя спорные, из-за шумов на хроматоргамме, моменты, полиморфизмы и вторичный пик. Основываясь на данных хроматограмы, нами были выбраны наиболее подходщящие основания.
На Рис. 1 в позции 53_F нами был выбран тимин. На Рис. 2 в позции 53_F нами был выбран тимин.
Рис. 1 Проблемный участок 53_F
Проблемный участок 104_F
Полиморфизмы встретились несколько раз. На учатке 287_F(Рис. 3) нами был выбран Y. На учатке 412_F(Рис. 4) нами также был выбран Y.
Рис. 3 Проблемный участок 287_F
Рис. 4 Проблемный участок 412_F
Так же в хроматограмме присутствует вторичный пик. Его сложно правильно охарактеризовать, поэтому изменения в него не вносились.
Рис. 5 Вторичный пик
На Рис. 6 предствлена характеристика прочтения хароматограммы. По оси X – номер нуклеотида, по оси Y – качество прочтения, синий график показывает качество прочтения прямой последовательности, оранжевый - качество прочтения прямой обратной. Основываясь на данном графике, можно сказать что хроматограммы довольно качественная, нечитаемые учатки в начале и в конце. Проблемные участки вызваны наличием шума при прочтении.
Вкачестве примера нечитаемой хроматограммы был взят файл NN_G10.ab1. Хроматограмма полностью нечитаемая: на ней нет пиков и она короткая: состоит только из пяти нуклеотидов. Соответственно по ней нельзя сделать никаких выводов о последовательности.