Чтение последовательностей по Сэнгеру

Упражнение 1.

В данном упражнении необходимо было получить последовательность ДНК на основании данных, полученных из капиллярного секвенатора, и составить отчёт о проблемах при чтении хроматограмм.
Проблемный нуклеотид — тот, по которому принимается решение, отличное от предложенного программой, или принимается вариант программы, но необходимо было проанализировать хроматограммы и принять решение. Проблемные нуклеотиды в последовательности выделяются строчными буквами.
Полиморфизм — это нуклеотид, про который принято решение, что в секвенируемой ДНК встречаются два (или более) варианта. Полиморфизмы обозначаются кодами вырожденных нуклеотидов (ambiguity codes).
Капиллярный секвенатор выдает файлы с хроматограммой и автоматически прочтённой последовательностью в формате .ab1. Мне были даны 2 файла в формате .ab1 (Cs2_18SIII_F_C05_WSBS-Seq-1-08-15.ab1 и Cs2_18SIII_R_C06_WSBS-Seq-1-08-15.ab1), соответствующие прямому и обратному прочтению секвенируемой ДНК.
Ниже представлены произвольные участки двух хроматограмм и их характеристика.

Рис.1. Cs2_18SIII_F_C05_WSBS-Seq-1-08-15.ab1

Рис.2. Cs2_18SIII_R_C06_WSBS-Seq-1-08-15.ab1

Обе хроматограммы весьма читаемы, пики достаточно различимы, уровень шума средний, фрагментами даже очень низкий, однако стоит отметить, что хроматограмма обратного прочтения значительно хуже, общий уровень шумов выше, большее количество неопределенных программой нуклеотидов. Полиморфизмы очень редки.

Ссылки на исходные файлы в .ab1 формате:

Cs2_18SIII_F_C05_WSBS-Seq-1-08-15.ab1 (прямое)
Cs2_18SIII_R_C06_WSBS-Seq-1-08-15.ab1 (обратное)
Границы нечитаемых 5'- и 3'-участков 5'-участок 3'-участок
Прямая последовательность 1 - 23 430 - 833
Обратная последовательность 830 - 868 1 - 130

Таблица 1. Границы нечитаемых 5'- и 3'-участков в каждой последовательности (обратная - Complement Reverse)

Были удалены нечитаемые фрагменты в начале и конце каждой последовательности. Сначала редактировалась прямая последовательность. Сложные места (шум выше среднего уровня шума и почти как сигнал, пик на нетипичном расстоянии от соседей: вклинился лишний или соседние пики нетипично удалены и т.д.) проверялись по второй цепочке. Все исправления показаны маленькими буквами. Исправления заключались в удалении лишней буквы, замене буквы, вставке буквы между предложенными софтом секвенатора и т.д. Обе последовательности выровнены программой needle, далее полученное в формате fasta выравнивание раскрашено по нуклеотидам в JalView. Рассмотрим некоторые случаи ниже:

Редактирование прямого прочтения:

1. В данном случае программой не определен нуклеотид под номером 375, хотя и при обычном просмотре "глазами" становится очевидным, что это цитозин. При сравнении участков со второй цепью нам удалось в этом достоверно убедиться.


2. На этот раз при прямом прочтении программе не удалось определить нуклеотид под номером 399, хотя визуально виден невысокий пик гуанина, однако, очевидно, он был принят программой за шум. При сравнении с подобным участком во второй цепи нам все же удалось убедиться в том, что это гуанин.


Редактирование обратного прочтения:

3. При обратном прочтении гуанин на позиции N 204 был принят за шум. Хроматограмма прямого прочтения позволила нам удостовериться в том, что в последовательности на этом месте действительно находится гуанин.


4. При обратном прочтении гуанин на позиции N 212 был принят за шум. Хроматограмма прямого прочтения позволила нам удостовериться в том, что в последовательности на этом месте действительно находится гуанин.


5. В данном случае нуклеотид на 327 позиции в обратном прочтении явным образом не определен из-за шума. На хроматограмме прямого прочтения явным образом на данном месте в последовательности находится цитозин.


Ссылки на отредактированные файлы в .fasta формате:

Cs2_18SIII_F_C05_WSBS-Seq-1-08-15.fasta (прямое)
Cs2_18SIII_R_C06_WSBS-Seq-1-08-15.fasta (обратное)
Проект в JalView

Упражнение 2.

В данном упражнении нужно было описать нечитаемый участок хроматограммы. Ниже приведен участок хроматограммы обратной последовательности из упражнения 1.

Хроматограмма нечитаема, так как пики размытые, широкие и непериодичные. Очень сложно отличить сигнал от шума. Сигналы перекрываются и находятся на одном уровне с шумами, что не позволяет распознать нуклеотиды.


© Макиевская Кьяра, 2018