Чтение последовательностей по Сэнгеру

Чтение, исправление и выравнивание хроматограмм

С помощью программы Chromas (Lite) были открыты данные мне хроматограммы прямой и обратной последовательности. Исправление прямой последовательности происходило путем ее сравнения с последовательностью, комплементарной обратной (получена с помощью Reverse+Complement).

Сначала были отрезаны плохо читаемые концы. Сама программа в прямой последовательности выделила с 1 по 23 и с 430 до 833 нуклеотиды как плохо прочитанные, однако последовательность вполне читаема начиная уже с 15 нуклеотида, а сравнение со второй последовательностью позволяет отодвинуть и правый конец и удалить только с 626 по 833 нуклеотиды. Во второй же последовательности конца автоматически получились с 1 по 127 и с 832 по 868 нуклеотиды, но т. к. в задании было сказано координаты концов определять по прямой последовательности, я обрезала вторую так же, как первую. Т. е. длина правого конца - 23, левого - 208 нуклеотидов.

На рис. 1 преставлены разные фрагменты разных хроматограмм (при одинаковвых вертикальных и горизонтальных масштабах). Приведенные фрагменты - примеры хороших участков каждой хроматограммы. Видно, что у обратного прочтения (верхняя хроматограмма) уровень сигнала (как шумового так и значимого) заметно выше.

Рисунок 1. Фрагменты хроматограмм обратного (сверху) и прямого прочтения.

Как уже было сказано, уровень шума (как и вообще уровень сигнала) в обратной хромотограмме даже в хорошем участке выше, чем в прямой, онако уровень щума относительно значимого сигнала примерно одинаковый (так говорит мне мой глазомер). При этом уровень шума примерно равномерен, если не считать нечитаемых концов, где шум уже не отличим от не шума, причем сигнал (особенно на самых концах длинный нечитаемых концов) может быть очень сильным.
Еще одно различие между двумя хроматограмамми: в первой (прямой, на рис. 1 та. которая ниже) сигналы A и G в среднем заметно выше остальных, в то время как во второй хроматограмме наоборот: сигналы Т и С заметно сильнее сигналов A и G.

Еще один показатель - длина нечитаемых участков. У прямой последовательности: левый - 23, правый - 434, что составляет примерно 55% от общей длины последовательности; у второй: левый - 127, правый - 37, процент - 18,9%. То есть вторая последовательность читаема и информативна на куда большей части прочтения.

Исправления. На рис. 2 приведени участок с четырьмя выделенными исправлениями. Пояснения к ним даны ниже:

GCCNAC (GCCANC) -> GCCaAC (GCCAaC) - в этом случае в разных цепях не распознался один из двух пиков аденинов: на первой п-ти лучше был виден второй, а во второй - первый (отдельные пике лучше видны во второй последовательности).
CTTCT (CTTNT) -> CTTCT - здесь нуклеотид, не распознавшийся при чтении обратной последовательности, был определен по соотнесению с первой последовательностью.
В третьеем случае было все то же самое, что и во втором.
В четвертом приведенном примере - все наоборот, нуклеотид в прямой последовательности восстанавливался по соотнесению с обратной.

Рисунок 2. Примеры исправлений

По ссылке вы так же можете посмотреть выравнивание целиком.

Пример нечитаемой хроматограммы

На рис. 3 приведен фрагмент прямого прочтения ближе к концу. Видно, что на нем качество хромагограммы уже не удовлетворительное. Также видно, что становится очень много сдвоенных пиков. Возможно, это объясняется тем, что при большой длине фрагмента ДНК плохо становится различима разница между фрагментами, где синтез ДНК остановаился на соседних буквах (понятно, что разница в массе между кусками в 1 нуклеотид и 2 нуклеотида куда более заметна, чем разница между кусками в 1000 и 1001 нуклеотид). Соответственно, эти полосы на форезе очень близко, что делает их трудно различимыми.

Рисунок 3. Пример нечитаемого конца.

Результаты

Проект JalView
исправленная последовательность (с отрезанными концами)
оригинальные файлы: прямая последовательность, обратная последовательность

НАЗАД ➜