1. Вступление
Данный практикум заключается в расшифровке результатов секвенирования по Сэнгеру. Были выданы два бинарных файла с в формате .ab1 (33_F.ab1 и 33_R.ab1) с информацией о флуоресценции каждой из четырёх нуклеотидных меток, автоматически определённой последовательностью, а также качеством определения каждого отдельного нуклеотида. Для визуализации и работы с хроматограммами была использована программа Chromas. Результатом работы является консенсусная последовательность, полученая путём расшифровки хроматограмм прямой (33_F.ab1) и обратной (33_R.ab1) цепочек ДНК.
Ссылка на файл с результатом — консенсусной последовательностью в формате fasta
Далее сказано о том, как была получена эта последовательность.
Выравнивание
Для начала нужно было выровнять автоматически определённые последовательности. Для этого, открыв через Chromas обе хроматограммы поочерёдно, послеовательности были экспортированны из программы в формате fasta, для одной из последовательностей с помощью команды revseq была найдена комплиментарная (33_R.ab1), затем готовые последовательности были выровнены с помощью команды needle.
Редактирование проблемных нуклеотидов. Полиморфизмы
Следующий шаг состоял в редактировании автоматически определённых последовательностей. Для этого они были открыты через Chromas и выровнены вручную.
Были проделаны следующие действия:
- Из-за сливания двух пиков гуанина и их пересечения с пиком аденина у верхней последовательности программа не смогла распознать аденин и один гуанин. В то время как в другой цепи пики чётко разделены. (Рис.1)
- И снова сливание двух пиков, нераспознанное программой. Аденин в верхней последовательности восстановился с помощью нижней. (Рис.2)
- Большие затёки флуоресцентных меток цитозина, тимина и аденина не помешали программе распознать нужные пики и приавильно определить последовательность. (Рис.3)
- Корректировка участка 5'- конца, признанного программой нечитаемым. На данных позициях пики тимина и цитозина хорошо заметны, поэтому тут можно было обойтись без выравнивания.
- Большое количество шума меток гуанина и аденина помешало прочтению даух пиков. Последовательность легко восстановить даже без выравнивания. (Рис.5)
- Сливание трёх пиков тимина и порождаемые ими шумы мешают прочтению боковых пиков цитозина и гуанина, а также большие затёки аденина и гуанина, но мешающие прочтению. (Рис.6)
- С помощью выравнивания удалось восстановить даже часть 3'- конца обратной цепи, определённого программой как "нечитаемый". Этот участок довольно некачественный, но я бы не назвала его нечитаемым. В него были внесены несколько изменений:
- Определены три аденина, три цитозина и один гуанин.
- Удалены лишние буквы: С на 358 позиции и N на 361 позиции.
С помощью обратной последовательности удалось восстановить некоторые буквы прямой последовательности
Восстановление букв обратной последовательности с помощью прямой прямой.
Ссылки на отредактированные последовательности: 33_Fr.fasta, 33_Rr.fasta
Выравнивание отредактированных последовательностей.
Характеристика хроматограммы. Редактирование
Были удалены нечитаемые 5'- и 3'- концы (Рис.7). В обоих хроматограммах нечитаемые конечные участки были сокращены и дополнены буквами: для прямой последовательности координаты нечитаемых конечных участков, определённых программой составили 1-23 для 5'- конца и 381 для 3'- конца (5'- конец был измён на 1-20), для обратной только для 5'- конца - 356-385 (изменён на 369-383). (Рис. 8,9)
Рис.9. Нечитаемый 5'- конец прямой цепи.
Рис.8. Нечитаемый 5'- конец обратной цепи.
Обе хроматограммы можно отнести к хроматограммам хорошего качества. Не учитывая конечные нечитаемые участки, можно заметить, что:
- Количество шума в среднем небольшое, так как обеспечивает хорошее качество прочтения подавляющего большинства букв.
- Шум равномерно распределён по всей длинне. Количество шума гуанина превышает остальной шум в прямой последовательности, в обратной последовательности аналогичная ситуация с шумом цитозина.
- Равномерное распределение пиков, соблюдение определённого расстояния между ними.
- По одному затёку на каждую хроматограмму (несмотря на это пратически все буквы были распознаны автоматически).
- Было небольшое количество пиков, наложенных друг на друга. Все они обозначены кодами вырожденных нуклеотидов.
2. Разбор нечитаемого фрагмента хроматограммы
Для анализа я взяла 5'- конец обратной последовательности, описанной выше.
Рис.8. Нечитаемый 5'- конец обратной цепи.
Программой Chromas данный фрагмент определён как нечитаемый, хотя в его начале не так сложно распознать отдельные пики и восстановить последовательность (не без помощи прямой последовательности), поэтому начальный участок данного фрагмента я бы скорее назвала некачественным, чем нечитаемым. Чего не скажешь о конце участка (370-383): здесь нет обособленных пиков, все сигналы наложены друг на друга.