Практикум 4. Секвенирование по Сэнгеру

Данный практикум был посвящён обработке результатов секвенирования по методу Сэнгера, а именно - анализу получаемых на выходе хроматограмм и их аннотации.

Обработка результатов секвенирования

Для анализа были предложены хроматограммы секвенирования прямой и обратной последовательностей, доступные по ссылкам: 52_F.ab1 (прямая) и 52_R.ab1 (обратная).

Данные файлы были открыты при помощи программы Chromas (обратная последовательность - с опцией «Reversed»), после чего обе последовательности были экспортированы (без обработки) в формате fasta, визуализированы в JalView и выровнены с помощью Clustal (см. рисунок 1) (файл fasta с выравниванием).

Рисунок 1. Выравнивание неотредактированных последовательностей

Затем из полученного выравнивания были удалены отмеченные программой Chromas нечитаемые концевые участки:

• на прямой цепи: 5' 1 - 50 (50 нуклеотидов) и 3' 721 - 916 (196 нуклеотидов)
• на обратной цепи (после применения опции «Reversed»): 5' 1 - 175 (175 нуклеотидов) и 3' 913 - 961 (49 нуклеотидов)

Во всех случаях определение нечитаемых концов выглядит достаточно адекватным.

Выравнивание без обозначенных участков (удалены позиции выравнивания 1 - 179 и 743 - 965) представлено на рисунке 2 (fasta).

Рисунок 2. Выравнивание после удаления концевых участков

Далее в полученном выравнивании были найдены и отредактированы проблемные позиции. Ниже приведены изображения хроматограмм прямой (сверху) и обратной (снизу) цепочек, иллюстрирующие эти позиции.

Рисунок 3. Проблемная 14-я позиция выравнивания на хроматограммах
Рисунок 4. Проблемная 256-я позиция выравнивания на хроматограммах
Рисунок 5. Проблемная 445-я позиция выравнивания на хроматограммах
Рисунок 6. Проблемная 473-я позиция выравнивания на хроматограммах
Рисунок 7. Проблемная 529-я позиция выравнивания на хроматограммах

В позиции 14 (рисунок 3) на хроматограмме прямой последовательности (52_F) наблюдаются два пика - A и G. На хроматограмме обратной последовательности (52_R) окрестности этой позиции вызывают затруднения, однако видно, что сигнала G здесь нет; значит, пик G на 52_F представляет собой шум. Итак, правильный нуклеотид для этой позиции - A.

Ситуация с позицией 256 (рисунок 4) полностью аналогична: пик T - сигнал, пик G - шум. Исправляем на T.

В позиции 445 (рисунок 5) на хроматограмме 52_F сигнал и шум близки по интенсивности, однако хроматограмма обратной последовательности позволяет однозначно определить правильный нуклеотид - T.

В позиции 473 (рисунок 6) пик G на 52_F можно было бы принять за шум, однако на 52_R он явно выражен.

В позиции 529 (рисунок 7) на 52_F можно видеть пик C, слившийся с соседним, на фоне достаточно сильного шума. По обратной последовательности убеждаемся, что на этом месте должен быть нуклеотид C.

Рисунок 8.

На рисунке 8 можно видеть пример неоднозначного участка хроматограммы (прямой последовательности), на котором пики слишком широкие и сливаются друг с другом, однако base calling справляется со своей задачей, в чём можно удостовериться благодаря обратной цепи.

Стоит отметить, что в данной последовательности не наблюдается признаков полиморфизмов или делеций/инсерций.

На рисунке 9 приведено выравнивание последовательностей (fasta) после исправления проблемных позиций.

Рисунок 9. Отредактированное выравнивание

По итогам обработки хроматограмм была установлена консенсусная последовательность (fasta).

О качестве хроматограмм в целом можно сказать, что среднее отношение шум/сигнал на глаз определяется как примерно 1/8 - 1/10, при этом на некоторых участках (особенно ближе к нечитаемым концам хроматограмм) оно может достигать приблизительно 1/4.

Пример нечитаемого участка хроматограммы

Ниже на рисунке 10 приведён пример нечитаемого участка хроматограммы (взято из файла WSV23_COI_F_A01_WSBS-Seq-1-08-15.ab1).

Рисунок 10. Нечитаемая хроматограмма

Очевидно, что уровень шума слишком высок, и автоматическая аннотация хроматограммы оказалась невозможной; причинами этого могли быть как загрязнённость образца, так и «неправильный» отжиг праймеров на частично комплементарные участки матричной ДНК. Кроме того, на данном участке можно заметить ещё несколько особенностей: так, ближе к левому краю рисунка наблюдается усиление сигнала по всем каналам - следствие того, что в определённый момент через детектор спектрометра прошёл одновременно целый набор цепочек ДНК, оканчивающихся разными нуклеотидами (ошибка при проведении электрофореза); а ближе к концу рассматриваемого участка появляется множество идущих подряд одинаковых нуклеотидов, что похоже на результат проскальзывания полимеразы.