Отчет по практикуму 6. Чтение последовательностей по Сэнгеру.

На этой странице выложен отчет по практикуму 2.

Данные в виде файлов с хроматограммами формата [ab1] были получены из капиллярного секвенатора по Сэнгеру. Для просмотра и редактирования автоматического прочтения этих хроматограмм использовалась программа Chromas.

Задание 1. Прочтение последовательности ДНК

Файлы данного задания:

исходные [ab1]-файлы с автоматическим прочтением прямой и обратной последовательностей;
полученные после редактирования автоматического прочтения FASTA-файлы с прямой и обратной-комплементарной последовательностями;
[jvp]-проект с выравниванием отредактированных последовательностей, выравнивание в формате mfa, выравнивание в формате msf.

В следующей таблице приведены нечитаемые участки в соответствии с рекомендацией программы Chromas. Для обратной последовательности — после замены на комплеменатрную.

Нечитаемый участок	5'-конец	3'-конец
Прямая цепь	1-98 (98 нуклеотидов)	674-715 (45 нуклеотидов)
Обратная цепь	1-42 (42 нуклеотидов)	576-711 (136 нуклеотид)

Общая характеристика хроматограммы прямой цепи:

В результате 10 измерений мощности пиков и усреднения: мощность сигнала в среднем составляет 1009.7, мощность шума — 122.1;
отношение сигнала к шуму составляет примерно 8 к 1(отношение средних высот пиков сигнала и шума составляет 8,27);
Сигнал распределен вдоль последовательности неравномерно:есть участки, где высота пиков больше высоты пиков в остальных участках в 1,1-1,5 раза. Кривая, образованная вершинами пиков напоминает синусоиду.
Высота пиков сигналов гуанина и аденина немного больше средней высоты пика сигнала. ;
распределение шума неравномерно:есть участки, где шум почти незаметен, а есть, где высота пиков шума составляет 20-30% высоты сигнала, причем эти оба типа участков образуют короткие участки .

Общая характеристика хроматограммы обратной цепи (после замены на комплементарную):

В результате 10 измерений мощности пиков и усреднения: мощность сигнала в среднем составляет 1022.9, мощность шума — 95,1;
Отношение сигнала к шуму составляет примерно 10 к 1(отношение средних высот пиков сигнала и шума составляет 10,75);
Сигнал распределен вдоль последовательности неравномерно:есть участки, где высота пиков больше высоты пиков в остальных участках в 2-3,5 раза. Чаще всего такие участки представлены повторяющимся цитозином.
Часть сигналов цитозина в среднем в 2-3 раза выше остальных сигналов, высота сигналов аденина тоже часто немного больше средней высоты сигнала ;
Распределение шума неравномерно:есть участки, где шум почти незаметен, а есть, где высота пиков шума составляет 20-30% высоты сигнала.

После работы с обеими хроматограммами можно сказать, что качество второй значительно лучше. Там я встретился с меньшим количеством проблемных участков. Причиной тому можно считать хорошее соотношение сигнал-шум, а также более короткий нечитаемый участок.

Отчёт о проблемах при редактировании автоматического прочтения

Опишу некоторые из проблемных ситуаций, возникших в ходе редактирования автоматического прочтения последовательностей ДНК. Я работал как с прямой, так и с обратной-комплементарной последовательностью. В ходе работы возникали, помимо прочих, такие случаи, когда однозначный выбор нуклеотида был невозможен. Тогда на этой позиции в [FASTA]-файле ставился один из так называемых вырожденных кодов (ambiguity codes^[1]):

В Таблице 1 приведены несколько проблемных ситуаций и иллюстрации, их поясняющие. В верхней части двойных изображений всегда показана прямая, а снизу — обратная-комплеменатрная цепочка. Участки выровнены. (Выравнивание после удаления нечитаемых участков такое, что 1-ый нуклеотид прямой цепи соответствует 38-ому нуклеотиду обратной-комплементарной.

Таблица 1

Проблема	Описание	Изображение
Полиморфизм нуклеотидов	В 156-ой позиции прямой цепи нуклеотид был неопознан из-за перекрывания пиков сигнала и шума(пики А и Т). Но при обращении к обратной-комплементарной цепи(нуклеотид 524) всё становится — виден четкий пик аденина и несильный сигнал тимина между 2 пиками тимина, а также скорее всего шумовой сигнал гуанина(одиночный несильный пик). В FASTA-файл в этой позиции поставлен вырожденный код w(A или T).
Слишком высокий шум затрудняет автоматическое определение нуклеотида	При рассмотрении обратной-комплементарной цепи в позиции 190 нуклеотид не распознан программой. Имеется высокий пик гуаниеа и невысокий пик аденина. В комплементарной цепи четко распознан программой цитозин. В FASTA-файл в этой позиции поставлен гуанин g.
Слишком высокий шум затрудняет автоматическое определение нуклеотида	В 240-ой позиции при рассмотрении замечаем высокий пик гуанина и невысокий аденина. На обратной цепи нуклеотид определен программой(441 нуклеотид на комплементарной цепи) как цитозин. В FASTA-файле записан гуанин g.
Полиморфизм нуклеотидов	В 250 нуклеотиде мы видим примерно одинаковые пики гуанина и аденина. На обратной цепи(431 нуклеотид) мы видим большой пик цитозина и очень маленький смещенный пик тимина. ПОскольку на прямой цепи пики примерно равны в FASTA-файле стоит вырожденный код — r (A или G). Можно отметить, что маленький пик тимина на обратной цепи располагался ровно между 431 и 432 нуклеотидом.

После проведенного редактирования полученные [FASTA]-последовательности прямой и обратной-комплементарной цепей были выровнены с ипользованием Muscle with defaults, а полученное выравнивание раскрашено по нуклеотидам.

Консенсусная последовательность:

 
    >Consensus/1-663 Percentage Identity Consensus 
		TGGGAGGDTATATTYTGTTTTAVGTTTATGGTCTGGCTTAGTGGGGTTGGTATACAGGACTATAATGCGTAC
		AGAGTTAATACATCCMGGTTCTTTTTATGGTGAGTCMGTTTATAATGTTTTAGTGACTTCACMTGGTTTACT
		AWYAATTTYTTTTATAGTAATGCCTCTAATAATTGGATTTTTTGGAAATTGGGCTGTTCCCCTTTTATTAGC
		TGCACCTGATATAGTTTTTGCTCRTCYTAMTAATCTTAGCTTTTGGTTACTTCCTGCGGCTACTATTTTMTT
		GCTAATATCTAATGAAGTGRAGGAAGGAGTTGGGACGGGTTGAACACTTTACCCCCCTTTATCTGCTYGATT
		AGGTCATCCTGCCCCADCGATGGAGYTTATAATTTTMGGGCTACATATTGCTGGAATAACTTCTATTTTTGC
		AAGAATTAATTTCGTAACTACAGGTGCTAATATGCGACCTGAGGGGGTGGCTCCTCRSCGAMCTACCTTGTT
		TGTGGTCTCAGTGGTAAYYACATCATTTYTACTGGTGGTTGCCATACCCGTACTABCTGCCGGCTTAACTAT
		ACTTCTTACTGACMRAAATTTTAATACTTCTTTTTTTGATCCGGTAGGAGGAGGGGACCCTGTTTTATTTAT
		TCATTTGTTTTGDTA

Задание 2. Пример нечитаемой хроматограммы

На рисунке ниже приведён пример действительно плохой по качеству хроматограммы. Её файл доступен для скачивания.

Как видим, автоматического прочтения не произошло. И это неудивительно, при просматривании хроматограммы на всем протяжении шум неотличим от сигнала, встречаются огромные пики, размытые и нечёткие. Возможно, в образце содержались разные цепочки ДНК.

[1] IUPAC ambiguity codes