Практикум #6. Секвенирование по Сэнгеру

Получение последовательности ДНК на основании данных, полученных из капиллярного секвенатора. Составление отчёта о проблемах при чтении хроматограмм

Ход работы

Пояснения и результаты

Задание 1

Файлы для анализа: 37_F.ab1 и 37_R.ab1. 37_F.ab1 был обрезан до 49 нуклеотида и отрезаны с 377 включительно (для конца последовательности обе программы дали одинаковый результат)

37_F_trim_s

Рис.1 37_F.ab1 обрезан до 49 нуклеотида в начале

37_F_trim_f

Рис.2 37_F.ab1 обрезан с 377 нуклеотида в конце

37_R.ab1 был обрезан до 3 (Chromas обрезал до 19) нуклеотида и отрезаны по моему мнению с 346 (Chromas предложил с 286, а GeneStudio с 326)

37_R_trim_s

Рис.3 37_R.ab1 обрезан до 3 нуклеотида в начале

37_R_trim_f

Рис.4 37_R.ab1 обрезан с 346 нуклеотида в конце Красный-мой вариант; Зеленый-вариант GeneStudio; Желтый-вариант Chromas

В дальнейшем хроматограммы были проанализированны на их качественность. При удалении концов с плохими пиками хроматограмма выглядит хорошо (низкие пики шумов) кроме некоторых выделяющихся мест, например, на рис.5 и 6.

37_F_bad

Рис.5 37_F.ab1, плохой участок на прямой последовательности, похожий на пятно краски

37_R_bad

Рис.6 37_R.ab1, плохие участки на обратной последовательности, похожие на пятно краски

Автоматизацию процесса анализа качественности хроматограммы можно сделать по такому принципу: выделить все "хорошие" пики и посчитать их среднюю высоту, после чего сравнить ее со средней высотой пиков шумов, и, если второе не превышает первого, то такая хроматограмма хорошая, если превышает, то наоборот. Тоже самое можно проделать и с площадями.

Далее в программе GeneStudio было просмотренно выравнивание обрезанных последовательностей, для исправления каждой из них. При этом возникали и спорные моменты, которые приходилось проверять отдельно (GeneStudio автоматически создает из выравнивания прямой и обратной последовательности консенсусную последовательность, в которую уже вводит свои изменения, однако, на некоторых местах он вставлял ИЮПАКовские символы неопределенности, в моем случае Y - T или С, W - A или T, что продемонстрированно на рисунках ниже). К сожалению, последовательности не покрыли друг друга полностью, поэтому в них останутся неопределенные места.

37_R-F_bad

Рис.7 На выделенной позиции было решено поставить С, т.к на верхней хроматограмме пик T не отличим от шума (вверху обратная, винзу прямая последовательности).

37_R-F_bad

Рис.8 Первая стрелка указывает на пропуск буквы, т.к. видно более широкий пробел между буквами последовательности. Вторая стрелка указывает на на неопределенность W. Участок обратной последовательности в программе GeneStudio не отобразился, однако, его можно наблюдать на рис.6, из-за довольно плохой формы пиков участка обратной последовательности с 286 по 304 н.п. были взяты из прямой

В итоге были сделаны fasta-файлы прямой и обратной последовательности, в которых отсутствуют трэш-концы и исправлены некоторые места в последовательности. Полученные последовательности были выравнены и само выравнивание было сохранено в fasta-формате.

Задание 2

На рисунках 5 и 6 указаны места в хроматограмме, которые похожи на пятна краски. Помимо этого, были просмотрены файлы NN_G10 и WSWS2950_H3_F_G09_2013-06-11-22-39-58 из дирректории bad. На первой хроматограмме помимо пятен краски, нет четко выраженных пиков, т.к. все они не отличимы от шума. На рисунке 9 видна эта проблема. На рисунке 10 хорошо отображена проблема с анализом начала хроматограмм.

37_R-F_bad

Рис.9 Видно, что хроматограмма состоит из шума, из которого не возможно выделить последовательность.

37_R-F_bad

Рис.10 Хорошо заметна проблема с началом хроматограммы, на которой не возможно определить последовательность