ЧТЕНИЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ПО СЭНГЕРУ

Метод секвенирования по Сэнгеру был разработан Фредериком Сэнгером в 1977г. На сегодняшний день секвенирование ДНК по Сэнгеру полностью автоматизировано и проводится нa секвенаторах. Использование дидезоксинуклеотидов с флуоресцентными метками с разными длинами волн испускания позволяет проводить реакцию в одной пробирке. Реакционную смесь разделяют капиллярным электрофорезом в растворе, фрагменты ДНК, выходящие из капиллярной колонки регистрируются детектором флуоресценции. Результаты анализируют с помощью компьютера и представляют в виде последовательности разноцветных пиков, соответствующих четырём нуклеотидам - хроматограмм.[1]

В рамках выполнения данной работы необходимо было прочитать последовательность ДНК на основании данных, полученных из капиллярного секвенатора по Сэнгеру и осветить проблемы, возникшие при чтении хроматограмм.

Капилярный секвенатор выдает файл с автоматически прочтенной последовательностью в формате .ab1. При этом иногда у программы возникают проблемы с прочетинием последовательности в неоднозначных местах, где затруднено распознавание пиков, что ведет к возникновению ошибок или к появлению в последовательности буквы N, означающей любой из 4 возможных нуклеотидов.

В данном случае чтение последовательности производилось с помощью программы Chromas lite. Чтение производилось с двух файлов в формате .ab1, соответствующих прямой и обратной цепям одной молекулы ДНК:

ИСХОДНЫЕ ФАЙЛЫ

ХАРАКТЕРИСТИКА ИСХОДНОЙ ХРОМАТОГРАММЫ

Качетсво хроматограммы довольно сильно варьирует на разных участках, так как секвенированные фрагменты довольно крупные по размеру (около 1000 нуклеотидов). На удивление существенно более высоким качетсвом обладала обратная цепь. С помощью программы Chromas, она была реверсирована (был совершен переход к комплементарной цепочке) - в дальнейшем нуклеотиды нумеруются отностиельно реверсированной последовательности. Участок же на прямой цепи с хорошим сигналом очень невелик (см. Таблицу 1), поэтому довольно крупная часть прямой последовательности восстанавливалась по обратной цепи. На прямой цепи хороший участок с началом последовательности, на обратной - середина и конец. Поэтому при формировании итоговой последовательности из прямой цепочти брался участок с 1 по 289 (не считая первых 16 вырезаных), а 299-914 с обратной цепи (нуклеотиды считаются по файлу итоговой последовательности - см.ниже). В Таблицах 1 и 2 приведены более подробные данные по качетву хроматограмм.

Номера нуклеотидов в последовательности1-1617-4242-364 364-650650-750750-905
Характеристика хроматограммы Фрагмент нечитаем. Шум эквивалентен сигналу. Восстановаить по комплементарной цепочке нет возможности (сигнал в этом месте на комплементарной цепочке еще хуже). Фрагмент не входит в финальную последовательность. Уровень шума довольно высокий. Автоматически последовательность не определяется. Возможно воостановать последовательность вручную с высокой степенью достоверности. Хороший сигнал. За довольно редкими исключениями шум не достигает значения половины пика сигнала. Высокий уровень шума. Шум превышет высоту половины сигнала, часто эквивалентен высоте пика. Но последовательность угадывается вручную или восстанавливается по комплементарной цепочке. Последовательность фактически нечитаема. Восстановлена по эквивалентной цепочке. Сигнал настолько некачетсвенной, что было принято решение не восстанавливать этот фрагмент по эквивалентной цепочке несмотря на наличие такой возможности. Фрагмент не входит в финальную последовательность.

Таблица 1. Характеристика исходной хроматограммы прямой цепи (Ae6_18SII_F_H05_WSBS-Seq-1-08-15.ab1).
Номер нуклеотида в последовательности 1-8990-187 188-400401-930931-949950-962
Характеристика хроматограммыФрагмент нечитаем. Было принято решение не восстанавливать последовательность по прямой цепочке, несмотря на наличие такой возможности. Фрагмент не входит в итоговую последовательность. Качество сигнала плохое. Последовательность восстанавливается по прямой цепочке, местами можно восстановить вручную. Качество сигнала неплохое, уровень шума низкий. Последовательность однозначно восстанавливается автоматически. Участок с идеальным сигналом и очень низким уровнем шума. Ухудшается качество сигнала, однако последовательность однозначно определяется автоматически или легко восстанавливается вручную. Низкое качетсво сигнала. Фрагмент не поддается восстановлению. Этот фрагмент не включен в финальную последовательность.

Таблица 2. Характеристика исходной хроматограммы обратной цепи при переходе к обратной цепочке(Ae6_18SII_R_H06_WSBS-Seq-1-08-15.ab1).

ПРОБЛЕМНЫЕ НУКЛЕОТИДЫ

В ходе анализа хроматограмм возникали проблемы с трактованием последовательности - неоднозначные пики или расхождение во мнениях с программой. Ниже приведены некоторые примеры подобных ситуаций и принятые по ним решения.

Прямая цепь
Обратная цепь Результат Программой был пропущен цитозин между нуклеотидами A и G (синий пик) и добавлен один лишний неизветсный пик. Обратаная последовательность характеризуется существенно более низким уровнем шума на данном участке, из-за чего было принято решение сохранить данный фрагмент идентичным последовательности обратной цепи. Этот пик не был рассмотрен как полиморфизм, всвязи с тем что, уровень шума на прямой цепи в этом месте довольно высок, и как видно из приведенного фрагмента довольно часто достигает значения сигнала при абсолютно однозначном прочтении обратной последовательности.

Аналогично предыдущему примеру в данном случае пик между цитозином и аденином (317 на прямой цепи) не определяется автоматически засчет наличия еще одного высокого шумового пика, который можно было бы трактовать как полиморфизм. Однако подобно случаю описанному выше, было принято решение принять этот пик за гуанин, так как на обратной цепи сигнал трактуется однозначно, а уровень шума на данном фрагменте прямой цепи довольно высок. Прямая цепьОбратная цепь Результат
Прямая цепь
Обратная цепь
Результат
Автоматически не распознается программой пик между двумя гуанинами под номером 237 на прямой цепи. Из визуальных соображений очевидно, что этот пик соответствует аденину. Такой вывод был сделан, несмотря на довольно крупный шумовой черный пик, какие также встречаются в окружении этого нуклеотида (между 239 и 240), однако не рассматриваются программой. Это соображение подтверждается четким красным пиком на обратной цепочке. Всвязи с этим данный нуклеотид не был рассмотрен как полиморфизм.
На обратной цепочке нуклеотид 156 между гуанином и цитозином также не был распознан автоматически, вероятно из-за сдвоенного пика. Как видно в этом месте поступает сдвоенный сигнал гуанина (широкий черный пик), однако не считывается должным образом из-за низкого качества хроматограммы на данной участке. На прямой же цепочке хорошо видно, что данный пик однозначно соответсвует гуанину и хорошо обособлен. Таким образом было принято решение поставить в данную позицию гуанин. Обратная цепьПрямая цепь Результат

ПРОЕКТ ВЫРАВНИВАНИЯ ПРЯМОЙ И ОБРАТНОЙ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

После прочтения хроматограмм были получены последовательности прямой и обратной(реверсированной цепи) в FASTA формате:

Проблемные нуклеотиды, которые были исправлены вручную помечены строчными буквами. Нечитаемые фрагменты последовательностей удалены (1-16; 750-905 для прямой цепи, 1-89; 950-962 для обратной цепи).

С помощью программы needle из пакета EMBOSS было получено глобальное парное выравнивание двух последовательностей, визуализированное в Jalview. С файлами, полученными на выходе этих двух программ, а также с визуализированным выравниванием можно ознакомиться ниже:

Глобальное парное выравнивание прямой и обратной последовательностей.

РЕЗУЛЬТАТ ПРОЧТЕНИЯ

Комбинируя две полученные последовательности прямой и обратной цепи был получена финальная последовательность. Учитывая особенности обеих хроматограмм, описанные выше, я добавила в финальную последовательность лучшие из двух вариантов фрагменты при наличии такового выбора. Таким образом 1-298 нуклеотид последовательности был взят из прямой цепи, 299-914 из обратной.

РЕЗУЛЬТАТ ПРОЧТЕНИЯ:

Результат

ПРИМЕР ПЛОХОЙ ХРОМАТОГРАММЫ

Зачастую хроматограммы теряют свое качетсво и становятся неразборчивыми засчет различных факторов, таких как проскок полимеразы, сложная структура ДНК и др.

Справа приведен фрагмент такой плохой, нечитаемой хроматограммы. Предположительно причина появления этого сильного красного сигнала, перебивающего другие пики - ПЯТНО КРАСКИ.

Главнaя страница

© Анна Камышева 2016