Главная


Практикум №6: "Чтение последовательностей по Сэнгеру"


Задание №1



Исходные файлы: прямая цепь и обратная цепь.

Таблица 1. Координаты нечитаемых 5'- и 3'-концов (по прямой цепи).
ЦепьКоординаты нечитаемого 5'-концаКоординаты нечитаемого 3'-конца
Прямая1-38647-718
Обратная686-7181-43


Характеристика хроматограммы прямой цепи:
  • В среднем сигнал превосходит шум приблизительно в 15 раз.
  • Сила сигнала распределена вдоль оси Х довольно равномерно, в среднем составляет 1000-1200, но существуют пики с силой сигнала от 300 (Рис.1) до 2300 (Рис.2). Шум распределён равномерно.
  • Как уже было упомянуто, наибольшая сила сигнала достигает 2300, наименьшая порядка 300 (то есть макисмальное различие силы сигнала примерно в 7,5 раз).
    Сила сигнала не зависит от нуклеотида, так как, например, для цитозина есть сила сигнала, равная 2300, но для других цитозинов можно найти и довольно слабые сигналы (около 500, Рис.3), и, наоборот, на Рис.1 представлен пик для гуанина с очень слабой силой сигнала (300), но на Рис.4 представлен пик для другого гуанина с силой сигнала около 2200.

    Рис. 1.
    Рис. 2.
    Рис. 3.
    Рис. 4.


    Характеристика хроматограммы обратной цепи:
  • В среднем сигнал превосходит шум приблизительно в 15 раз.
  • Сила сигнала распределена вдоль оси Х довольно равномерно, в среднем составляет 1100-1200, но существуют пики с силой сигнала от 340 (Рис.5) до 2450 (Рис.6). Шум распределён равномерно.

    Рис. 5.
    Рис. 6.
  • Наибольшая сила сигнала достигает 2450, наименьшая порядка 340 (то есть макисмальное различие силы сигнала примерно в 7 раз).
    Сила сигнала не зависит от нуклеотида, так как, например, для цитозина есть сила сигнала, равная 2450 (Рис.5), но для других цитозинов можно найти и довольно слабые сигналы (около 340, Рис.6).

    Описание проблем, возникших при распознавании последовательноти.

  • Второй, третий и четвёртый нуклеотиды (нумерация после удаления нечитаемых концов) в прямой цепи программа не распознавала (Рис. 7а). Исследовав сигналы, соответствующие данным нуклеотидам, было сделано предположение, что это тимин, аденин и тимин соответственно. После выравнивания последовательностей на данном участке стало очевидным, что в комплементарной цепи данные нуклеотиды - тимин, аденин и тимин (Рис. 7b), что подтвердило предположение, основанное на оценки пиков. В прямой цепи NNN заменены на tat.
    Исходная последовательность до редактирования изображены на рисунках сверху.

    Рис. 7a.
    Рис. 7b.
  • Тринадцатый нуклеотид (тимин) в прямой цепи программа не распознала (Рис.8a). Возможно, так произошло их-за того, что пик, соответствущий данному нуклеотиду, располагается слишком близко у соседнему пику аденина. Сравнение с обратной цепью подтверждает, что данный нуклеотид - тимин (Рис. 8b).

    Рис. 8a.
    Рис. 8b.
    Проблемный нуклеотид указан стрелкой. Пик взят в красный овал.
  • Нуклеотид №148 прямой цепи программа выдаёт как "R", то есть пурин, то есть данный нуклеотид - A или G (Рис.9a). Если посмотреть на соответствующий сигнал, видим, что сигнал, соответствующий гуанину (чёрный цвет) и очень сильный больше половины сигнала шум (зелёный цвет, соответствует аденину). В обратной цепи в данной позиции два одинаковых сигнала, наслаивающиеся друг на друга, соответствующие тем же A и G, программа здесь даёт N Рис.9b). Таким образом, можно утверждать, что в данной позиции действительно находится пурин, но какой именно, утверждать трудно. В обратной цепи N заменена на r.

    Рис. 9a.
    Рис. 9b.
    Проблемный нуклеотид указан стрелкой. Пик взят в фиолетовый овал.
  • Нуклеотид №595 обратной цепи (координаты - по прямой цепи) программа не узнаёт. Сигнал соответствует гуанину, но здесь наблюдается довольно большой шум, гораздо выше среднего, соответствующий аденину (Рис.10a). Сравнивая с прямой цепью убеждаемся, что в данной позиции находится G (Рис.10b).

    Рис. 10a.
    Рис. 10b. Проблемный нуклеотид указан стрелкой.

  • Проблемной является позиция №598 обратной цепи (координаты - по прямой цепи) (Рис. 11a). В данной области виден большой широкий пик (взят в овал), соответствующий гуанину, который почти налегает на пик, соответствующий аденину, который чуть больше по величине. В данной позиции в прямой цепи, очевидно, аденин, и никакого сигнала G нет (Рис.11b). То есть можно говорить, что в данной позиции - A. Здесь программа правильно распознала нуклеотид.

    Рис. 11a.
    Рис. 11b.

  • В прямой цепи наблюдается широкий пик, соответствующий тимину, который затрудняет определение нукдеотидов в позициях 44 и 45 (Рис. 12a). В комплементе данного пика нет, а в проблемных позициях - G и A. И в этом случае программа не ошиблась, выдав и в прямой цепи данные нуклеотиды (Рис.12b).
    Рис. 12a.
    Рис. 12b.

  • На Рис.13a (прямая цепь) и Рис. 13b (обратная цепь) предствалены хорошие фрагменты хроматограмм без проблем.
    Рис. 13a.
    Рис. 13b.


  • Файлы в формате fasta с "чистой" прочтенной последовательностью: консенсусная последовательность. Выравнивание FASTA (ссылка): ТУТ

  • Выравнивание данных последовательностей в Jalview ЗДЕСЬ. Позиции, в которых осуществлялось редактирование последовательностей, обозначено символом "Х". Раскраска: Color Nucleotide.

    Задание №2



    Пример фрагмента нечитаемой хроматограммы приведён на Рис. 14. Ссылка: ЗДЕСЬ
    Рис. 14.

    Здесь видно, что друг на друга наложилось несколько сиквенсов. Видимо, в образце было одновременно несколько различных фрагментов ДНК. Так же возможно, что праймер для секвенирования отжегся на нескольких различных участках. Такую хроматограмму прочесть нельзя.
    © Павел Волик
    Факультет биоинженерии и биоинформатики, МГУ