Практикум 4. Секвенирование по Сэнгеру
Данный практикум был посвящён обработке результатов секвенирования по методу Сэнгера, а именно - анализу получаемых на выходе хроматограмм и их аннотации.
Обработка результатов секвенирования
Для анализа были предложены хроматограммы секвенирования прямой и обратной последовательностей, доступные по ссылкам: 52_F.ab1 (прямая) и 52_R.ab1 (обратная).
Данные файлы были открыты при помощи программы Chromas (обратная последовательность - с опцией «Reversed»), после чего обе последовательности были экспортированы (без обработки) в формате fasta, визуализированы в JalView и выровнены с помощью Clustal (см. рисунок 1) (файл fasta с выравниванием).
Затем из полученного выравнивания были удалены отмеченные программой Chromas нечитаемые концевые участки:
• на прямой цепи: 5' 1 - 50 (50 нуклеотидов) и 3' 721 - 916 (196 нуклеотидов)
• на обратной цепи (после применения опции «Reversed»): 5' 1 - 175 (175 нуклеотидов) и 3' 913 - 961 (49 нуклеотидов)
Во всех случаях определение нечитаемых концов выглядит достаточно адекватным.
Выравнивание без обозначенных участков (удалены позиции выравнивания 1 - 179 и 743 - 965) представлено на рисунке 2 (fasta).
Далее в полученном выравнивании были найдены и отредактированы проблемные позиции. Ниже приведены изображения хроматограмм прямой (сверху) и обратной (снизу) цепочек, иллюстрирующие эти позиции.
В позиции 14 (рисунок 3) на хроматограмме прямой последовательности (52_F) наблюдаются два пика - A и G. На хроматограмме обратной последовательности (52_R) окрестности этой позиции вызывают затруднения, однако видно, что сигнала G здесь нет; значит, пик G на 52_F представляет собой шум. Итак, правильный нуклеотид для этой позиции - A.
Ситуация с позицией 256 (рисунок 4) полностью аналогична: пик T - сигнал, пик G - шум. Исправляем на T.
В позиции 445 (рисунок 5) на хроматограмме 52_F сигнал и шум близки по интенсивности, однако хроматограмма обратной последовательности позволяет однозначно определить правильный нуклеотид - T.
В позиции 473 (рисунок 6) пик G на 52_F можно было бы принять за шум, однако на 52_R он явно выражен.
В позиции 529 (рисунок 7) на 52_F можно видеть пик C, слившийся с соседним, на фоне достаточно сильного шума. По обратной последовательности убеждаемся, что на этом месте должен быть нуклеотид C.
На рисунке 8 можно видеть пример неоднозначного участка хроматограммы (прямой последовательности), на котором пики слишком широкие и сливаются друг с другом, однако base calling справляется со своей задачей, в чём можно удостовериться благодаря обратной цепи.
Стоит отметить, что в данной последовательности не наблюдается признаков полиморфизмов или делеций/инсерций.
На рисунке 9 приведено выравнивание последовательностей (fasta) после исправления проблемных позиций.
По итогам обработки хроматограмм была установлена консенсусная последовательность (fasta).
О качестве хроматограмм в целом можно сказать, что среднее отношение шум/сигнал на глаз определяется как примерно 1/8 - 1/10, при этом на некоторых участках (особенно ближе к нечитаемым концам хроматограмм) оно может достигать приблизительно 1/4.
Пример нечитаемого участка хроматограммы
Ниже на рисунке 10 приведён пример нечитаемого участка хроматограммы (взято из файла WSV23_COI_F_A01_WSBS-Seq-1-08-15.ab1).
Очевидно, что уровень шума слишком высок, и автоматическая аннотация хроматограммы оказалась невозможной; причинами этого могли быть как загрязнённость образца, так и «неправильный» отжиг праймеров на частично комплементарные участки матричной ДНК. Кроме того, на данном участке можно заметить ещё несколько особенностей: так, ближе к левому краю рисунка наблюдается усиление сигнала по всем каналам - следствие того, что в определённый момент через детектор спектрометра прошёл одновременно целый набор цепочек ДНК, оканчивающихся разными нуклеотидами (ошибка при проведении электрофореза); а ближе к концу рассматриваемого участка появляется множество идущих подряд одинаковых нуклеотидов, что похоже на результат проскальзывания полимеразы.