Секвенирование по Сэнгеру

Получение последовательности ДНК на основе хроматограммы

В этом задании мы должны были обработать сырые данные с капиллярного секвенатора. Для этого нам были выданы файлы прямого и обратного прочтения. С помощью программы Chromas файлы были конвертированы в fasta-формат. Далее нужно было получить с обратного прочтения перевернутую комплементарную ей цепь. Полученную последовательность нужно было выровнять с прямым прочтением. Для этого мы воспользовались следующими командами из пакета Emboss:

revseq 49_R.fasta -out 49_R_reverse_complement.fasta

needle 49_F.fasta 49_R_reverse_complement.fasta  -out align.needle

needle 49_F.fasta 49_R_reverse_complement.fasta -aformat3 fasta -out align.fasta

Все файлы можно посмотреть здесь:

Полученное выравнивание представлено ниже. Оно будет нам нужно для того, чтобы упростить задачу поиска нерешённых участков хроматограмм. Пара слов о самой хроматограмме:
Длины нечитаемых участков составляли по данным Chromas для прямой последовательности 25 нуклеотидов в начале (с 5'-конца) и 10 — в конце, для обратной — 28 нуклеотидов в начале (с 5'-конца) и 12 — в конце.
Оценка на глаз отношения сигнала и шума в среднем: 15:1. В целом хроматограмма хорошая, без длинных затёков краски.
Неравномерность силы сигнала и шума вдоль последовательности представлена классическим образом - больше шума в начале и в конце прочтения.

Рис. 1. Полученное выравнивание в Jalview. Кликните на изображение, чтобы улучшить качество

Затем мы устраняли неточности в прочтении, основываясь на данных хроматограммы и последовательности комплементарной цепи. Все исправления были сделаны строчными буквами. В большинстве случаев в хроматограмме просто произошло затекание соседних продуктов. N в таком случае можно легко восстановить с помощью выравнивания

Ближе к концу прочтения началась нечитаемая область. Заменяем NN на TT

А это пики, которым нельзя подобрать аналогичные в другой последовательности. Примем их за полиморфизмы и обозначим их согласно номенклатуре IUPAC: (A/G) - Y, (T/G) - K

Скорректированные файлы: прямой и обратный. Очищенные последовательности сновы выровняли:
needle 49_F_cleaned.fasta 49_R_cleaned.fasta -aformat3 fasta -out align_cleaned.fasta
Полученное выравнивание было перенесено в JalView, откуда мы и извлекли консенсусную последовательность.

Пример нечитаемого участка

В качестве примера нечитаемого участка был взят фрагмент из конца прямой последовательности. Проблема интерпретации состоит не в отсутствии пиков, а в том, что пики примерно одной высоты есть сразу нескольких цветов.