Чтение последовательностей по Сэнгеру

   В задании необходимо было проанализировать данные (хроматограмму и автоматически прочтенную последовательность), полученную с капиллярного секвенатора.  
  Все файлы были даны в формате .ab1. Для просмотра и редактирования автоматического прочтения этих хроматограмм использовалась программа Chromas (Lite).
  Исходные файлы:

Задание 1. Прочтение последовательности ДНК. Отчет о проблемах.

    В программе Chromas (Lite) требовалось открыть файлы с прямой и обратной последовательностями ДНК, во втором окне с обратной цепью перейти к комплементарной цепи (с помощью команды Edit > Reverse+Complement),
  настроить одинаковый масштаб по горизонтали и произвести выравнивание двух хроматограмм с использованием поиска подслов Find.
    С помощью опции Continuous edit были удалены не читаемые 5'- и 3'- концы, чьи координаты в разных цепях представлены в таблице ниже. Все координаты определены по прямой последовательности.

Границы не читаемых 5'- и 3'-участков

Нечитаемый участок (координаты по прямой последовательности)	5'-конец	3'-конец
Прямая	1-130 (130 bp)	684-717 (33 bp)
Обратная	1-32 (32 bp)	587-717 (130 bp)

    Некоторые участки(как в середине последовательности, так и по краям) нечитаемы в одной последовательности, но при этом их можно определить в другой. 
  Объединяя результаты для двух цепей, можно получить наиболее точную и полную нуклеотидную последовательность.

Оценка качества хроматограммы.

Прямая цепь:

 
сила сигнала в среднем ~1000, уровень шума колеблется в пределах 100-150;
отношение сигнала к шуму примерно 6,5 к 1;
сигнал распределен неравномерно, но в десятки раз превосходит шум, пики четкие;
шум распределен достаточно равномерно, исключая концы хроматограммы и переходную зону между читаемым и нечитаемым участками.

Рис.1 Переходный участок хроматограммы на 3'-конце прямой цепи. Можно отметить изменение качества сигнала, размытость и раздвоенность пиков в переходной зоне, возрастающий
шумовой сигнал.   

    Качество хроматограммы неплохое, мощность сигнала в интервале 131-650 bp достаточная для однозначного определения последовательности ДНК. Качество сигнала от каждого нуклеотида в среднем довольно 
  высокое (Q~20), можно заметить разброс силы сигнала между разными нуклеотидами: у аденина и гуанина пики в разы выше, чем у пиримидиновых оснований. 
    Ближе к зоне разделения между читаемым и нечитаемым фрагментом качество хроматограммы и сигнала падает, пики становятся более размытыми, на некоторых наблюдается перекрывание. На концевых участках 
  уровень шума возрастает и отличить его от сигнала становится невозможно. Размер нечитаемого конечного участка длиннее на 5'-конце.

Обратная цепь:

 
сила сигнала в среднем ~1000, уровень шума колеблется в пределах 100-200;
отношение сигнала к шуму примерно 5-6 к 1;
сигнал распределен неравномерно, но в десятки раз превосходит шум, пики четкие;
шум распределен относительно равномерно, но ближе к переходной зоне наблюдаются скачки сигнала.

Рис.2 Переходный участок хроматограммы на 3'-конце обратной цепи. Можно отметить изменение качества сигнала, скачки шума.   

    Качество хроматограммы обратной цепи также хорошее, мощность сигнала в интервале 50-580 bp достаточная для однозначного определения последовательности ДНК. Качество сигнала от каждого нуклеотида 
  в среднем довольно высокое (Q~20), можно заметить разброс силы сигнала между разными нуклеотидами: у цитозина и тимина пики в разы выше, чем у пуриновых оснований. 
    Ближе к зоне разделения между читаемым и нечитаемым фрагментом качество хроматограммы и сигнала падает, пики становятся более размытыми, на некоторых наблюдается перекрывание. На концевых участках 
  уровень шума возрастает и отличить его от сигнала становится невозможно. Размер нечитаемого конечного участка длиннее на 3'-конце(после команды Edit > Reverse+Complement).
  
    Далее я проанализировала последовательности и отредактировала их посредством сравнения результатов двух хроматограмм и исправления потенциально возможных ошибок софта секвенатора. Все исправления
  внесены строчными буквами.
   
    В процессе редактирования хроматограмм нередко возникали ситуации, когда однозначный выбор нуклеотида в позиции был невозможен. В итоговых fasta-файлах на таких позициях
  ставились буквы вырожденного кода(IUPAC Ambiguity Codes[1]).
                                                         
                                                                          Таблица 1. IUPAC Ambiguity Codes
                                                                        
    
    Получены итоговые нуклеотидные последовательности двух цепей ДНК, с помощью программы JalView построено их выравнивание с раскраской по нуклеотидам. На основании полученых
  данных была составлена итоговая нуклеотидная последовательность.

Рис.3 Выравнивание, раскрашенное по схеме Nucleotide. Проблемные нуклеотиды отмечены строчными символлами с использованием IUPAC Ambiguity Codes.

Итоги

Отчет о проблемах при редактировании хроматограммы.

Описание проблемы	Изображение прямой цепи	Изображение обратной цепи
1. Обозначенный буквой N нуклеотид был не определен программой в прямой цепи, так как в ней на этой позиции наблюдается довольно сильный шумовой сигнал. В обратной последовательности присутствует лишь один выраженный пик аденина при минимальном сигнале шума.
2. Обозначенный буквой N нуклеотид был не определен программой в обратной цепи, так как в ней на этой позиции наблюдается сигнал, практически не отличающийся по силе от шумового. В прямой последовательности присутствует лишь один выраженный пик цитозина при практически отсутствующем сигнале шума.
3. Обозначенный буквой N нуклеотид на 3 позиции был не определен программой в обратной цепи, так как в ней на этой позиции наблюдается два эквивалентных по силе сигнала: тимина и цитозина. В прямой последовательности аналогичный участок не читаем. В соответствии с таблицей IUPAC Ambiguity Codes был указан символ Y вырожденного кода.	-
4. Обозначенные буквой N нуклеотиды в позциях 480 и 484 были не определены программой в обратной цепи, так как в ней на этой позиции наблюдается слабые сигналы, которые легко могут быть спутаны с шумом. В прямой последовательности на этих позициях присутствуют достаточно выраженные пики аденина и тимина при слабом сигнале шума.

Пример не читаемого фрагмента хроматограммы

    На рис. 4 приведен пример не читаемого фрагмента хроматограммы. Высокий уровень шума и перекрывающиеся пики указывают на загрязнение образца или возможное нахождение в нем 
  нескольких разных ДНК. Сильно выдающиеся и размытые пики по центру могут быть пятнами краски.

Рис.4 Пример плохой хроматограммы.

Источники:

Nucleotide ambiguity code