Чтение последовательностей, полученных из капиллярного секвенатора по Сэнгеру

Обработка хроматограмм

Для работы мне были даны результаты секвенирования по Сэнгеру в виде хроматограмм, сохранённых в файлах L34_COI_F_D03_WSBS-Seq-07-10-16.ab1 (прямая цепь) и L34_COI_R_D04_WSBS-Seq-07-10-16.ab1 (обратная цепь). С помощью программы Chromas (Lite) я открыла прямую и обратную цепочки секвенированной ДНК. Для прямой цепи я определила нечитаемые участки: 1-162 (5'-конец) и 612-717 (3'-конец). Для обратной цепи после построения комплементарной последовательности нечитаемые участки получились такими: 1-60 (5'-конец) и 509-714 (3'-конец). Качество второй хроматограммы значительно ниже по сравнению с первой, так как у неё очень сильные сигналы от цитозиновых нуклеотидов и слабые от остальных нуклеотидов. Из-за этого цитозиновый шум во многих местах мешает правильному определению нуклеотида, чего нет в прямой хроматограмме. Но зато в первой хроматограмме в читаемых участках присутствовали 2 пятна, которые можно было подкорректировать по второй хроматограмме, у которой не было подобных пятен. Полиморфизмов я не обнаружила. Уровень шума на прямой цепи максимален в начале читаемого участка, достигая половины от уровня сигнала. К концу хроматограммы он снижается и составляет в среднем 1/5 от уровня сигнала. Для обратной цепи уровень шума в среднем увеличивается к концу, где достигает половины от уровня сигнала, а иногда и вовсе становится одного уровня с сигналом. В начале хроматограммы уровень шума состовляет 1/4 от уровня сигнала (иногда 1/3 для цитозинового шума).

В результате редактирования я получила следующие файлы в формате FASTA прямая цепь и обратная цепь. Для обратной цепи была получена комплементарная последовательность, чтобы удобно было сравнивать две цепи при построении выравнивания.

Построение выравнивания в JalView

С помощью программы JalView я построила выравнивание полученных ранее последовательностей прямой и обратной цепей секвенированной ДНК. Вы можете скачать выравнивание по ссылке. Также вы можете скачать мой JalView проект. В нём чёрной рамочкой выделены проблемные нуклеотиды, по которым я приняла решение, отличное от предложенного программой Chromas (Lite). Если соединить обе последовательности, то можно получить предполагаемую последовательность секвенированной ДНК.
Если сделать поиск по базе данных с помощью BLAST, то окажется, что мне был дан ген COI митохондриальной ДНК двустворчатого моллюска Modiolus modiolus, кодирующий первую субъединицу цитохромоксидазы.
Посмотреть изображение выравнивания.

Обоснование решений для проблемных нуклеотидов

Ниже представлены изображения участков прямой (вверху) и обратной (внизу) хроматограмм, на которых мне встретились проблемные нуклеотиды (обведены в рамочку). В моём случае проблемные нуклеотиды однозначно определялись по комплементарной цепи.

На первом изображении мы видим, что в прямой цепи сигнал от гуанинового нуклеотида соизмерим с уровнем шума. Можно было бы предположить, что в этом месте гуаниновый и адениновый нуклеотиды образуют полиморфизм, однако на обратной цепи на данной позиции вовсе отсутствует сигнал от аденина, а виден чёткий сигнал только гуанинового нуклеотида. Из чего делаем вывод, что и в прямой цепи должен быть сигнал от гуанина.

На второй картинке мы видим аналогичную ситуацию для проблемного гуанинового нуклеотида на верхней хроматограмме, которая однозначно решается в пользу гуанина с помощью обратной цепи. Что касается проблемного тиминового нуклеотида на обратной цепи, то для него можно было бы предположить полиморфизм с цитозином. Но на нижней хроматограмме слева мы видим такой же по уровню цитозиновый шум, который отсутствует на верхней хроматограмме. На прямой цепи на месте проблемного тиминового нуклеотида мы видим чёткий тиминовый пик, причём уровень шума в 5 раз ниже, чем уровень сигнала. Поэтому я определила проблемный нуклеотид как тиминовый.

На третьей картинке мы видим два проблемных тиминовых нутлеотида на обратной цепи, сигналы которых по высоте сравнимы с сигналами от цитозина. Однако, на прямой цепи цитозиновый шум значительно ниже, и мы видим чёткие пики. Поэтому эти нуклеотиды я тоже определила как тиминовые.

На четвёртом изображении представлен один проблемный нуклеотид на верхней хроматограмме, на местре которого конкурируют тиминовый и адениновый пики. Но на обратной цепи мы наблюдаем лишь чёткий тиминовый пик и низкий уровень шума, в 4 раза меньший уровня сигнала. Поэтому данный нуклеотид я определила как тиминовый.

Пример нечитаемого фрагмента хроматограммы

Ниже приведено изображение нечитаемого фрагмента хроматограммы, взятого из файла. Мы видим, что уровень шума невозможно отличить от уровня сигнала. Слева мешает огромное гуаниновое пятно, которое справа переходит в почти горизонтальную линию. Затем пики от остальных нуклеотидов расположены сильно близко друг к другу. Очень резко снижается уровень сигнала. Так что по такой хроматограмме ни один нуклеотид нельзя точно определить.