Отчет по практикуму 6. Чтение последовательностей по Сэнгеру.

На этой странице выложен отчет по практикуму 2.

Данные в виде файлов с хроматограммами формата [ab1] были получены из капиллярного секвенатора по Сэнгеру. Для просмотра и редактирования автоматического прочтения этих хроматограмм использовалась программа Chromas.

Задание 1. Прочтение последовательности ДНК


Файлы данного задания:

В следующей таблице приведены нечитаемые участки в соответствии с рекомендацией программы Chromas. Для обратной последовательности — после замены на комплеменатрную.

Нечитаемый участок5'-конец3'-конец
Прямая цепь1-98
(98 нуклеотидов)
674-715
(45 нуклеотидов)
Обратная цепь1-42
(42 нуклеотидов)
576-711
(136 нуклеотид)

Общая характеристика хроматограммы прямой цепи:
Общая характеристика хроматограммы обратной цепи (после замены на комплементарную):

После работы с обеими хроматограммами можно сказать, что качество второй значительно лучше. Там я встретился с меньшим количеством проблемных участков. Причиной тому можно считать хорошее соотношение сигнал-шум, а также более короткий нечитаемый участок.

Отчёт о проблемах при редактировании автоматического прочтения

Опишу некоторые из проблемных ситуаций, возникших в ходе редактирования автоматического прочтения последовательностей ДНК. Я работал как с прямой, так и с обратной-комплементарной последовательностью. В ходе работы возникали, помимо прочих, такие случаи, когда однозначный выбор нуклеотида был невозможен. Тогда на этой позиции в [FASTA]-файле ставился один из так называемых вырожденных кодов (ambiguity codes[1]):

В Таблице 1 приведены несколько проблемных ситуаций и иллюстрации, их поясняющие. В верхней части двойных изображений всегда показана прямая, а снизу — обратная-комплеменатрная цепочка. Участки выровнены. (Выравнивание после удаления нечитаемых участков такое, что 1-ый нуклеотид прямой цепи соответствует 38-ому нуклеотиду обратной-комплементарной.

Таблица 1

ПроблемаОписаниеИзображение
Полиморфизм нуклеотидовВ 156-ой позиции прямой цепи нуклеотид был неопознан из-за перекрывания пиков сигнала и шума(пики А и Т).
Но при обращении к обратной-комплементарной цепи(нуклеотид 524) всё становится — виден четкий пик аденина и несильный сигнал тимина между 2 пиками тимина, а также скорее всего шумовой сигнал гуанина(одиночный несильный пик).
В FASTA-файл в этой позиции поставлен вырожденный код w(A или T).

Слишком высокий шум затрудняет
автоматическое определение нуклеотида
При рассмотрении обратной-комплементарной цепи в позиции 190 нуклеотид не распознан программой. Имеется высокий пик гуаниеа и невысокий пик аденина.
В комплементарной цепи четко распознан программой цитозин.
В FASTA-файл в этой позиции поставлен гуанин g.

Слишком высокий шум затрудняет
автоматическое определение нуклеотида
В 240-ой позиции при рассмотрении замечаем высокий пик гуанина и невысокий аденина. На обратной цепи нуклеотид определен программой(441 нуклеотид на комплементарной цепи) как цитозин. В FASTA-файле записан гуанин g.
Полиморфизм нуклеотидовВ 250 нуклеотиде мы видим примерно одинаковые пики гуанина и аденина. На обратной цепи(431 нуклеотид) мы видим большой пик цитозина и очень маленький смещенный пик тимина. ПОскольку на прямой цепи пики примерно равны в FASTA-файле стоит вырожденный код — r (A или G).
Можно отметить, что маленький пик тимина на обратной цепи располагался ровно между 431 и 432 нуклеотидом.


После проведенного редактирования полученные [FASTA]-последовательности прямой и обратной-комплементарной цепей были выровнены с ипользованием Muscle with defaults, а полученное выравнивание раскрашено по нуклеотидам.

Консенсусная последовательность:

 
    >Consensus/1-663 Percentage Identity Consensus 
		TGGGAGGDTATATTYTGTTTTAVGTTTATGGTCTGGCTTAGTGGGGTTGGTATACAGGACTATAATGCGTAC
		AGAGTTAATACATCCMGGTTCTTTTTATGGTGAGTCMGTTTATAATGTTTTAGTGACTTCACMTGGTTTACT
		AWYAATTTYTTTTATAGTAATGCCTCTAATAATTGGATTTTTTGGAAATTGGGCTGTTCCCCTTTTATTAGC
		TGCACCTGATATAGTTTTTGCTCRTCYTAMTAATCTTAGCTTTTGGTTACTTCCTGCGGCTACTATTTTMTT
		GCTAATATCTAATGAAGTGRAGGAAGGAGTTGGGACGGGTTGAACACTTTACCCCCCTTTATCTGCTYGATT
		AGGTCATCCTGCCCCADCGATGGAGYTTATAATTTTMGGGCTACATATTGCTGGAATAACTTCTATTTTTGC
		AAGAATTAATTTCGTAACTACAGGTGCTAATATGCGACCTGAGGGGGTGGCTCCTCRSCGAMCTACCTTGTT
		TGTGGTCTCAGTGGTAAYYACATCATTTYTACTGGTGGTTGCCATACCCGTACTABCTGCCGGCTTAACTAT
		ACTTCTTACTGACMRAAATTTTAATACTTCTTTTTTTGATCCGGTAGGAGGAGGGGACCCTGTTTTATTTAT
		TCATTTGTTTTGDTA

Задание 2. Пример нечитаемой хроматограммы

На рисунке ниже приведён пример действительно плохой по качеству хроматограммы. Её файл доступен для скачивания.

Как видим, автоматического прочтения не произошло. И это неудивительно, при просматривании хроматограммы на всем протяжении шум неотличим от сигнала, встречаются огромные пики, размытые и нечёткие. Возможно, в образце содержались разные цепочки ДНК.


[1] IUPAC ambiguity codes