Секвенирование по Сэнгеру
Что было сделано:
- с помощью программы UGENE были прочтены хроматограммы прямой и обратной последовательности под кодом 12
- с помощью программы Jalview было произведено выравнивание данных последовательностей, и получена консенсусная последовательность нуклеотидов
Даны были последовательности - прямая и обратная - неизвестной мне ДНК, секвенированной по Сенгеру, под кодом 12 в формате ab1. Я открыла их в UGENE и посмотрела на их хроматограммы.
Ссылки на исходные последовательности представлены здесь:
Вначале выровняем прямую и обратную последовательности. Можно было это сделать в GeneStudio или UGENE, но получилось только в Jalview (выравнивание Clustal with Defaults).
Определим нечитаемые концы: прямая последовательность:5' 1-61 в хроматограмме (1-91 в выравнивании), 676-719 в хроматограмме (707-750 в выравнивании); обратная последовательность:5' 1-59 в хроматограмме (660-719 в выравнивании), 684-718 в хроматограмме (1-35 в выравнивании).
Примечание: файл с первоначальным выравниванием можно найти здесь.
Удалим нечитаемые концы в выравнивании.
Снова выравниваем. Файл с "перевыравниванием" можно посмотреть тут.
Если "на глаз" определить уровень шума, то он будет примерно 10-15%. Встречаются хроматограммы и почетче:). В середине пики читаются прекрасно, по краям качество оставляет желать лучшего. То же можно сказать о силе сигнала. В центральной части сигнал средний, идет ровно; в самом начале хроматограммы сигнал слишком сильный (перегрузка короткими фрагментами), в конце плавно затухающий. В этой хроматограмме встречаются "пузыри", возможно, это несвязавшиеся ddNTP.
Отредактируем прямую последовательность, просмотрев целиком ее хроматограмму:
1)В позициях 68 и 69 нетипично далеко друг от друга расположены нуклеотиды. Редактируем: на 68 позиции хроматограммы отчетливо виден нуклеотид А, принятый по ошибке за N. Cледующий за ним пик, подходящий по расположению - G, а красный пик N больше походит на шум, чем на нуклеотид. Получаем А и G на 68 и 69 позициях соответственно.
![error1.png](/~spyro/term3/block2/pr6/error1.png)
2)Зеленый пик на 81 позиции больше походит на шум, если судить по окружению. Поменяем на G.
![error2.png](/~spyro/term3/block2/pr6/error2.png)
3)На позициях 88-89 зеленый пологий сигнал - шум, большой, широкий синий пик - несвязавшийся ддНТФ (но это не точно), Больше всего похож на сигнал черный пик на 88 позиции и красный пик на 89 позиции. В итоге поменяли нуклеотиды N на G и Т на 88 и 89 позициях соответственно.
![error3.png](/~spyro/term3/block2/pr6/error3.png)
4)На 105 позиции синий и зеленый пики - точно шум. Осталось решить, какой пик истинный. Если судить по выравниванию, то тут должен быть нуклеотид G, т.е. черный пик истинный.
![error4.png](/~spyro/term3/block2/pr6/error4.png)
5)На позиции 158 виден слабый пик - сигнал гуанина. Поменяем N на G.
![error5.png](/~spyro/term3/block2/pr6/error5.png)
6)На позиции 169 имеются сигналы гуанина и цитозина одинаковой интенсивности. Обратившись за помощью к выравниванию, мы ответа не получим. Поменяем N на S соответственно таблице.
![error6.png](/~spyro/term3/block2/pr6/error6.png)
7)На позиции 387 зеленый сигнал больше похож на шум, поэтому ставим во внимание только сигнал гуанина. На всякий случай обратимся к выравниванию. Оно нам говорит, что наш выбор скорее всего, верный.
![error7.png](/~spyro/term3/block2/pr6/error7.png)
8)На позиции 464 поменяем N на А. Тут, вроде бы, все очевидно.
![error8.png](/~spyro/term3/block2/pr6/error8.png)
9)На позиции 560 находим, что шумовой уровень зеленого сигнала в окружении выше, чем у красного. Поэтому ставим во внимание красный пик. Меняем N на T.
![error9.png](/~spyro/term3/block2/pr6/error9.png)
осталось совсем немного
10)Красный "пузырь" на 636 позиции не внушает доверия. Смело меняем N на А.
![error10.png](/~spyro/term3/block2/pr6/error10.png)
11)Пик на 669 пизиции несколько смещен, поэтому определен неправильно. Меняем N на Т.
![error11.png](/~spyro/term3/block2/pr6/error11.png)
Нечитаемый фрагмент:
Пример нечитаемого фрагмента хроматограммы приведен на картинке ниже. Здесь представлено характерное для начала хроматограммы большое количество пиков всех цветов. Это может быть обусловлено выходом из колонки несвязанных флюоресцирующих ддНТФ.
![problem.png](/~spyro/term3/block2/pr6/problem.png)
Стоит отметить, что существует страничка на сайте центра коллективного пользования "ГЕНОМ", на которой грамотно описаны возможные проблемы чтения хроматограмм секвенирования по Сэнгеру и способы их устранения.
С обратной последовательностью проделываем все то же самое. Результатом должны быть консенсусная последовательность, которую я получила в Jalview, и итоговое выравнивание.