Главная страница Обучение Обо мне Ссылки

Чтение последовательности ДНК по Сэнгеру

Задание 1.

Исходные файлы хроматограмм: WS2980_H3_F_A03 (прямая цепь), WS2980_H3_R_A04 (обратная цепь).

Нечитаемые концы хроматограмм приведены в таблице справа.

Следует отметить, что после удаления соответствующих концов нумерация нуклеотидов автоматически изменилась. В таблице приведены цифры для исходных последовательностей. Для обратной цепи указаны числа по нумерации после применения к посл-ти reverse+complement.

При выравнивании хроматограмм получилось так, что 1-ый (читаемый) нуклеотид прямой цепи приходился на 49-ый нуклеотид обратного комплемента, а нечитаемых нуклеотидов в прямой цепи еще 18, они были достроены по обратной цепочке, а 31 начальный нуклеотид обратной цепи был удален.

Характеристика качества хроматограмм:

    Хроматограмма прямой цепи

  • В среднем сила сигнала превосходит силу шума в 9 раз.
  • Уровень шума практически равномерен по оси Х, только в начале его то ли нет, то ли он перекрывается с сигналом, а в конце (примерно 5 последних нуклеотидов) шум немного растет.
  • Сигнал равномерен по оси Х за исключением начального отрезка (который был нераспознан программой).
  • Пики сигнала в большинстве своем одиночны, равноудалены друг от друга (в читаемой области).
  • По высоте пики красного и синего цвета (тиминовые и цитозиновые нуклеотиды соответственно) примерно одинаковы, зеленые и черные пики либо такой же высоты, как красные и синие, либо раза в 1,5-2 выше. Следовательно, и разброс силы сигнала больше у A и G.
  • Особенностью хроматограммы является наличие нескольких кратных (двойных, тройных) широких пиков в начале прямой посл-ти (29 - 47 позиции).
  • Еще одной особенностью является наложение пиков друг в конце прямой посл-ти, однако размывания пиков нет (возможно, в связи с малой длиной посл-ти - 379 нуклеотидов).
  • Хроматограмма обратной цепи

  • Уровень сигнала в среднем выше уровня шума в 10-11 раз.
  • В целом сила шума равномерна по оси Х, есть небольшой рост в районе 255-265 позиций, а также 280-295 позиций, но затем уровень спадает.
  • Уровень сигнала более-менее равномерен вдоль оси Х, к концу последовательности увеличивается разброс в высоте пиков - примерно с 310 нуклеотида.
  • Самый серьезный разброс по высоте пиков отмечается для C, почти такой же разброс у Т. У А и G более равномерна сила сигнала. Пики С и Т в среднем раза в 2 выше пиков А и G.
  • После 320 нуклеотида на 3'-конце начинается размывание пиков: они становятся двойными, тройными, широкими.
  • Совершенно нечитаемый конец с полным отсутствием каких-либо пиков (в отличие от прямой цепи).

Редактирование последовательности

Последовательности прямой и обратной комплементарной цепи (FASTA-файл прямой цепи, FASTA-файл обратной цепи) были введены в программу Jalview, где были выровнены, затем некоторые позиции были отредактированы. Результат выравнивания приведен в отдельном окне Jalview-проекта. Измененные нуклеотиды прописывались строчными буквами, а также отмечались "х" в строке Changes.

Комментарии по редактированию:

На Рис.1. показан фрагмент хроматограмм, который читается без каких-либо проблем.

Рис. 1.Фрагмент легко читаемой хроматограммы.

При редактировании были введены следующие обозначения:

  • M = A или С,
  • Y = T или С,
  • R = A или G,
  • W = A или Т,
  • S = C или G,
  • N = A, T, C или G.

Ниже описаны некоторые проблемные ситуации, возникшие в ходе работы.

1. Пропуск нуклеотида и нераспознанный нуклеотид в прямой цепи.

См. рис.2, 1).

В прямой цепи в позициях 32-33 пропущено место и стоит N, что портит выравнивание двух цепей. Это можно исправить, посмотрев на обратную комплементарную цепь - там программа однозначно распознает 3 А подряд.

Рис. 2. На всех изображениях сверху указана прямая последовательность, а снизу - комплементарная обратной. Слева направо: 1) пропущенный и нераспознанный нуклеотид в позициях 32 и 33 прямой цепи, 2) неопределенный нуклеотид в 90-ой позиции, 3) полиморфизм в 126-ой позиции (А или С с одинаковой вероятностью), 4) наложение пиков в обеих цепях в 249-ой позиции, 5) размытость и перекрывание пиков в обратной комплементарной цепочке в позициях 270 - 277.

2. Неоднозначная трактовка нуклеотида. См.Рис.2, 2).

В позиции 90 Chromos поставил N, но в прямой последовательности в принципе можно увидеть, что там стоит либо А, либо Т, поэтому я поставила W.

3. Пример полиморфизма. См. рис.2, 3).

В позиции 126 прямой посл-ти программа поставила букву М (означающую полиморфизм, А или С), в обратной - N. Пики практически совпадают друг с другом и по высоте примерно в 2 раза ниже окружающих, а шум достаточно низкий, поэтому я решила, что там скорее всего либо А, либо С, и в обоих посл-тях поставила М. Аналогично было сделано в 184-ом нуклеотиде (там либо Т, либо С, поэтому была вписана буква Y).

4. Наложение пиков. См. рис.2, 4).

В прямой цепи пик гуанина накладывается на пик аденина, в обратном комплементе ситуация не лучше. Скорее всего, в этой позиции должен стоять либо A, либо G, как видно в прямой цепи, поэтому я заменила N на R.

5.Наложение и размытость пиков в обратной цепи. См. Рис. 2, 5).

Рис. 3. Конец прямой цепи ДНК.

В обратной цепи на показанном фрагменте пики довольно размыты и перекрываются с соседними, однако программа сопоставила их с правильными нуклеотидами (их правильность можно проверить по прямой последовательности, где сигналы хорошо читаемы).

В конце прямой последовательности сомнительные нуклеотиды подтвердить нечем, так как читаемый кусок обратной цепи заканчивается раньше. Поэтому я оставила в последовательности те нуклеотиды, которые программа определила верно,но отрезала кусок после 370-го нуклеотида (см. рис. 3.), так как там после С, может быть, стоит еще один С, а может быть и ничего не стоит. Проверить по обратной цепи возможности нет.

Итоговая (после редактирования) последовательность прямой цепи ДНК: WS2980_H3_F_A03_final. Последовательность обратного комплемента: WS2980_H3_R_A04_final.

Финальная последовательнсть считываемого фрагмента последовательности: final_seq.fasta

Задание 2.

В качестве примера нечитаемой последовательности был взял файл WSV23_COI_F_A01. Фрагмент нечитаемой хроматограммы, полученной в результате секвенирования по Сэнгеру, приведен на Рис.4.

Рис. 4.Фрагмент нечитаемой хроматограммы.

В такой хроматограмме не указана даже верхняя шкала с буквами N, сигнала будто бы вообще нет, а большой широкий пик, возможно, является просто кляксой. По-видимому, секвенирование было проведено неудачно и не были получены последовательности, оканчивающиеся на терминирующие нуклеотиды, которые затем считываются хроматографом.

На страницу третьего семестра



© Alexandra Boyko, 2014. Faculty of Bioengineering and Bioinformatics, MSU.