Секвенирование по Сэнгеру


Получение последовательности ДНК на основе хроматограммы

В этом задании мы должны были обработать сырые данные с капиллярного секвенатора. Для этого нам были выданы файлы прямого и обратного прочтения. С помощью программы Chromas файлы были конвертированы в fasta-формат. Далее нужно было получить с обратного прочтения перевернутую комплементарную ей цепь. Полученную последовательность нужно было выровнять с прямым прочтением. Для этого мы воспользовались следующими командами из пакета Emboss:
revseq 49_R.fasta -out 49_R_reverse_complement.fasta
needle 49_F.fasta 49_R_reverse_complement.fasta -out align.needle
needle 49_F.fasta 49_R_reverse_complement.fasta -aformat3 fasta -out align.fasta
Все файлы можно посмотреть здесь: Полученное выравнивание представлено ниже. Оно будет нам нужно для того, чтобы упростить задачу поиска нерешённых участков хроматограмм. Пара слов о самой хроматограмме:
Длины нечитаемых участков составляли по данным Chromas для прямой последовательности 25 нуклеотидов в начале (с 5'-конца) и 10 — в конце, для обратной — 28 нуклеотидов в начале (с 5'-конца) и 12 — в конце.
Оценка на глаз отношения сигнала и шума в среднем: 15:1. В целом хроматограмма хорошая, без длинных затёков краски.
Неравномерность силы сигнала и шума вдоль последовательности представлена классическим образом - больше шума в начале и в конце прочтения.

alignment

Рис. 1. Полученное выравнивание в Jalview. Кликните на изображение, чтобы улучшить качество

Затем мы устраняли неточности в прочтении, основываясь на данных хроматограммы и последовательности комплементарной цепи. Все исправления были сделаны строчными буквами. В большинстве случаев в хроматограмме просто произошло затекание соседних продуктов. N в таком случае можно легко восстановить с помощью выравнивания

Цепь R: заменяем N на C
Цепь F: заменяем N на A
Цепь R: заменяем N на G
Цепь R: заменяем N на C
Цепь R: заменяем N на C
Цепь R: заменяем N на C
Ближе к концу прочтения началась нечитаемая область. Заменяем NN на TT
А это пики, которым нельзя подобрать аналогичные в другой последовательности. Примем их за полиморфизмы и обозначим их согласно номенклатуре IUPAC: (A/G) - Y, (T/G) - K

Скорректированные файлы: прямой и обратный. Очищенные последовательности сновы выровняли:
needle 49_F_cleaned.fasta 49_R_cleaned.fasta -aformat3 fasta -out align_cleaned.fasta
Полученное выравнивание было перенесено в JalView, откуда мы и извлекли консенсусную последовательность.

Пример нечитаемого участка

В качестве примера нечитаемого участка был взят фрагмент из конца прямой последовательности. Проблема интерпретации состоит не в отсутствии пиков, а в том, что пики примерно одной высоты есть сразу нескольких цветов.