Секвенирование по Сэнгеру
В шестом задании надо расшифровать хроматограмму и показать, какие участки бы не расшифровались.
Получение последовательности ДНК по хроматограмме
Для получения консенсусной последовательности файлы *.ab1 были открыты в Chromas, проблемные нуклеотиды помечены, потом экспортированые последовательности выровнены:
- revseq 24_R.fasta -out 24_R_rc.fasta
- needle 24_F.fasta 24_R_rc.fasta -aformat3 fasta -out 1946.fasta
Проблемы оказалось легко исправить по комплементарной цепи, и результат даже совпадал с интуитивно желаемым по хроматограмме. Консенсусная последовательность скопирована построчно из выравнивания в формате needle.
Скачать консенсусную последовательность. Доступны также файл с выравниванием (в формате fasta) и исходные файлы ab1: 24_F.ab1, 24_R.ab1.
Охарактеризуем хроматограмму. Вот что о ней можно сказать:
- Длины нечитаемых участков составляли (по данным Chromas) для прямой последовательности около 18 нуклеотидов в начале (с 5'-конца) и 2 — в конце, для обратной — около 21 нуклеотида в начале (с 5'-конца) и 1 — в конце.
- Чтобы оценить среднее отношение сигнала к шуму, был написан скрипт на Python, принимающий аргументом командной строки путь к файлу с экспортированными данными хроматограммы (зависимость яркости от номера измерения). Принцип работы основан на допущении, что максимальный показатель при каждом измерении является сигналом, а шум — среднее остальных трёх чисел. Складываются все сигналы и все шумы, одно делится на другое, таким образом, получается отношение интегрального сигнала к интегральному шуму. Для обоих прочтений величина составила около 20 (19,25 для прямого и 17,83 для обратного).
- Неравномернность силы сигнала и шума при оценке «на глаз»представляется следующей: практически везде сигнал на порядок сильнее, даже несмотря на флуктуации около двух раз. Исключение — зачастую сигнал G лишь незначительно превосходит уровень шума.
Разберём несколько проблемных участков хроматограммы (рисунки 1–4).
Видно, что «красная» и «синяя» краски разлились бесконтрольно, но это не убрало пики других цветов, хоть и превысило. Картина восстанавливается по выравниванию.
Он там очевиден даже без выравнивания.
Опять-таки выравнивание, хоть и помогает, не строго необходимо.
А здесь понадобилось выравнивание.
На концах возникли неразрешённые вопросы с полиморфизмами, они так и попали в консенсус. Были оставлены варианты вида «пурин» и «пиримидин», так как в принципе цитозин в одной из цепей мог перейти в тимин (дезаминирование).
Нечитаемый фрагмент хроматограммы
Возьмём некачественный фрагмент, в данном случае — из начала файла 24_F.ab1.
Он показан на рис. 5.
Здесь наблюдаются пики. Проблема интерпретации не в их отсутствии, а в том, что пики сравнимой высоты есть сразу нескольких цветов. И даже ближе к концу, когда остаётся только синий C, границы пика не очерчены и трудно сказать, сколько цитозинов на самом деле (судя по обратному прочтению, их должно быть три — столько и указано в консенсусной последовательности).
Итак, проанализированы результаты секвенирования по Сэнгеру. С хорошей точностью была расшифрована последовательность центрального участка ДНК, и даже на концах удалось прочесть что-то сверх аннотированного автоматически.