Учебный сайт Александры Бойко

Главная страница	Обучение	Обо мне	Ссылки
Чтение последовательности ДНК по Сэнгеру
Задание 1. Исходные файлы хроматограмм: WS2980_H3_F_A03 (прямая цепь), WS2980_H3_R_A04 (обратная цепь). Нечитаемые концы хроматограмм приведены в таблице справа. Следует отметить, что после удаления соответствующих концов нумерация нуклеотидов автоматически изменилась. В таблице приведены цифры для исходных последовательностей. Для обратной цепи указаны числа по нумерации после применения к посл-ти reverse+complement. При выравнивании хроматограмм получилось так, что 1-ый (читаемый) нуклеотид прямой цепи приходился на 49-ый нуклеотид обратного комплемента, а нечитаемых нуклеотидов в прямой цепи еще 18, они были достроены по обратной цепочке, а 31 начальный нуклеотид обратной цепи был удален. Характеристика качества хроматограмм: Хроматограмма прямой цепи В среднем сила сигнала превосходит силу шума в 9 раз. Уровень шума практически равномерен по оси Х, только в начале его то ли нет, то ли он перекрывается с сигналом, а в конце (примерно 5 последних нуклеотидов) шум немного растет. Сигнал равномерен по оси Х за исключением начального отрезка (который был нераспознан программой). Пики сигнала в большинстве своем одиночны, равноудалены друг от друга (в читаемой области). По высоте пики красного и синего цвета (тиминовые и цитозиновые нуклеотиды соответственно) примерно одинаковы, зеленые и черные пики либо такой же высоты, как красные и синие, либо раза в 1,5-2 выше. Следовательно, и разброс силы сигнала больше у A и G. Особенностью хроматограммы является наличие нескольких кратных (двойных, тройных) широких пиков в начале прямой посл-ти (29 - 47 позиции). Еще одной особенностью является наложение пиков друг в конце прямой посл-ти, однако размывания пиков нет (возможно, в связи с малой длиной посл-ти - 379 нуклеотидов). Хроматограмма обратной цепи Уровень сигнала в среднем выше уровня шума в 10-11 раз. В целом сила шума равномерна по оси Х, есть небольшой рост в районе 255-265 позиций, а также 280-295 позиций, но затем уровень спадает. Уровень сигнала более-менее равномерен вдоль оси Х, к концу последовательности увеличивается разброс в высоте пиков - примерно с 310 нуклеотида. Самый серьезный разброс по высоте пиков отмечается для C, почти такой же разброс у Т. У А и G более равномерна сила сигнала. Пики С и Т в среднем раза в 2 выше пиков А и G. После 320 нуклеотида на 3'-конце начинается размывание пиков: они становятся двойными, тройными, широкими. Совершенно нечитаемый конец с полным отсутствием каких-либо пиков (в отличие от прямой цепи). Редактирование последовательности Последовательности прямой и обратной комплементарной цепи (FASTA-файл прямой цепи, FASTA-файл обратной цепи) были введены в программу Jalview, где были выровнены, затем некоторые позиции были отредактированы. Результат выравнивания приведен в отдельном окне Jalview-проекта. Измененные нуклеотиды прописывались строчными буквами, а также отмечались "х" в строке Changes. Комментарии по редактированию: На Рис.1. показан фрагмент хроматограмм, который читается без каких-либо проблем. Рис. 1.Фрагмент легко читаемой хроматограммы. При редактировании были введены следующие обозначения: M = A или С, Y = T или С, R = A или G, W = A или Т, S = C или G, N = A, T, C или G. Ниже описаны некоторые проблемные ситуации, возникшие в ходе работы. 1. Пропуск нуклеотида и нераспознанный нуклеотид в прямой цепи. См. рис.2, 1). В прямой цепи в позициях 32-33 пропущено место и стоит N, что портит выравнивание двух цепей. Это можно исправить, посмотрев на обратную комплементарную цепь - там программа однозначно распознает 3 А подряд. Рис. 2. На всех изображениях сверху указана прямая последовательность, а снизу - комплементарная обратной. Слева направо: 1) пропущенный и нераспознанный нуклеотид в позициях 32 и 33 прямой цепи, 2) неопределенный нуклеотид в 90-ой позиции, 3) полиморфизм в 126-ой позиции (А или С с одинаковой вероятностью), 4) наложение пиков в обеих цепях в 249-ой позиции, 5) размытость и перекрывание пиков в обратной комплементарной цепочке в позициях 270 - 277. 2. Неоднозначная трактовка нуклеотида. См.Рис.2, 2). В позиции 90 Chromos поставил N, но в прямой последовательности в принципе можно увидеть, что там стоит либо А, либо Т, поэтому я поставила W. 3. Пример полиморфизма. См. рис.2, 3). В позиции 126 прямой посл-ти программа поставила букву М (означающую полиморфизм, А или С), в обратной - N. Пики практически совпадают друг с другом и по высоте примерно в 2 раза ниже окружающих, а шум достаточно низкий, поэтому я решила, что там скорее всего либо А, либо С, и в обоих посл-тях поставила М. Аналогично было сделано в 184-ом нуклеотиде (там либо Т, либо С, поэтому была вписана буква Y). 4. Наложение пиков. См. рис.2, 4). В прямой цепи пик гуанина накладывается на пик аденина, в обратном комплементе ситуация не лучше. Скорее всего, в этой позиции должен стоять либо A, либо G, как видно в прямой цепи, поэтому я заменила N на R. 5.Наложение и размытость пиков в обратной цепи. См. Рис. 2, 5). Рис. 3. Конец прямой цепи ДНК. В обратной цепи на показанном фрагменте пики довольно размыты и перекрываются с соседними, однако программа сопоставила их с правильными нуклеотидами (их правильность можно проверить по прямой последовательности, где сигналы хорошо читаемы). В конце прямой последовательности сомнительные нуклеотиды подтвердить нечем, так как читаемый кусок обратной цепи заканчивается раньше. Поэтому я оставила в последовательности те нуклеотиды, которые программа определила верно,но отрезала кусок после 370-го нуклеотида (см. рис. 3.), так как там после С, может быть, стоит еще один С, а может быть и ничего не стоит. Проверить по обратной цепи возможности нет. Итоговая (после редактирования) последовательность прямой цепи ДНК: WS2980_H3_F_A03_final. Последовательность обратного комплемента: WS2980_H3_R_A04_final. Финальная последовательнсть считываемого фрагмента последовательности: final_seq.fasta Задание 2. В качестве примера нечитаемой последовательности был взял файл WSV23_COI_F_A01. Фрагмент нечитаемой хроматограммы, полученной в результате секвенирования по Сэнгеру, приведен на Рис.4. Рис. 4.Фрагмент нечитаемой хроматограммы. В такой хроматограмме не указана даже верхняя шкала с буквами N, сигнала будто бы вообще нет, а большой широкий пик, возможно, является просто кляксой. По-видимому, секвенирование было проведено неудачно и не были получены последовательности, оканчивающиеся на терминирующие нуклеотиды, которые затем считываются хроматографом. На страницу третьего семестра
© Alexandra Boyko, 2014. Faculty of Bioengineering and Bioinformatics, MSU.

Чтение последовательности ДНК по Сэнгеру