Ссылки на скачивание исходных .ab1 файлов: прямая цепочка и обратная цепочка
Для получения консенсуса были осуществлены следующие действия:
Выравняем хроматограммы обратной и прямой цепочек на контиг (контиг берем в качестве референсной последовательности) в Ugene и получим консенсусную последовательность, которую надо отредактировать в виду наличия проблемных нуклеотидов на хроматограммах цепочек. (ссылка на выравнивание прямой, обратной последовательностей и референса)
В данном примере программа правильно определила сложный участок. На хроматограмме прямой цепи видно пятно краски. То что на позиции 110 и 113 присутствуют именно тимин и гуанин подтверждает и хроматограмма обратной последовательности.
Из-за большого количества шумов программа не смогла определить нуклеотиды в 116 и 121 позициях. Но так как сигналы тимина и цитозина довольно таки выражены, и средняя высота шумов не превышает и половины пиков, можно сделать вывод, что в 116-тимин а в 121-цитозин. Также данное удтверждение подтверждают выраженные пики тимина игуанина на этих позициях на хроматограмме обратной последовательности.
В данном случае на рис. 3 можно было бы предположить что в 225 позиции присутствует полиморфизм, так как высота пика цитозина превышает половину высоты пика тимина. Но если рассматривать область 224-228, то видно, что средняя высота шумов примерно равна данном 'цитозиновому пику'. При этом стоит отметить выраженный сигнал тимина на хроматограмме прямой цепи. Из всего вышесказанного можно сделать вывод, что на проблемной позиции находится тимин. Меняем N на T.
В данном случае (рис.4) в 331 позиции на хроматограмме обратной цепи также можно подумать, что мы имеем дело с полиморфизмом. Но в близких к 331 позициях также присутствует шум, также как и в предыдущем примере на прямой цепи нет шумов и присутствует выраженный сигнал тимина: делаем вывод, что в данной позиции находится тимин, меняем N на T.
На рис. 5 продемонстрирован еще один пример пятна краски по причине ошибки фореза. К счастью программа правильно разобралась с определением нуклетидов на 638-642 позициях.
В целом хроматограммы довольно качественные. Нечитаемые участки (как и ожидалось) находятся в начале и в конце хроматограмм. В основном проблемные участки возникают из-за повышения уровня шума, но таких участков мало. Также имеются пятна краски из за ошибок при форезе, но их всего две. Качество прочтения отображено на рис.6.
Для примера был взят файл kamp3_18SIII_F_F03_WSBS-Seq-1-08-15.ab1, был рассмотрен участок (хотя на самом деле плохо на протяжении всей хроматограммы) 456-471. Как видно из рис. 7 в данной хромотограмме каждому нуклеотиду соотвествует несколько пиков при этом расстояние между соседними пиками все время разное. Скорее всего при секвенировани в одном препарате присутствовало несколько фрагментов ДНК.