На главную

Чтение последовательностей по Сэнгеру

Данные в виде файлов с хроматограммами формата [ab1] были получены из капиллярного секвенатора по Сэнгеру. Для просмотра и редактирования автоматического прочтения этих хроматограмм использовалась программа Chromas.

1. Прочтение последовательности ДНК

Файлы данного задания:

Прямая последовательность состояла из 700 нуклеотидов, были сочтены нечитаемыми нуклеотиды до 33 и после 656-го. Обратная состояла из 721 нуклеотида, из них читаемыми были сочтены нуклеотиды с 67 до 697-го (считая от 5' к 3'-концу полученной комплементарной цепи).

В центральной части хроматограммы шум распределен достаточно равномерно. Средний уровень шума составляет прблизительно 1/8 среднего уровня сигнала. Однако наблюдаются отдельные участки, где уровень шума близок к уровню сигнала. На хроматограмме обратной последовательности уровень как сигнала, так и шума несколько выше, чем на прямой.

На выбранном нами участке качество хроматограммы в среднем выше половины. Качестов обратной хроматограммы несколько ниже.

Далее приведено несколько проблемных ситуаций и иллюстрации, их поясняющие. В верхней части двойных изображений всегда показана прямая, а снизу — обратная-комплеменатрная цепочка. Участки выровнены. (Выравнивание после удаления нечитаемых участков такое, что 1-й нуклеотид прямой цепи соответствует 18-му нуклеотиду обратной-комплементарной.)

Слишком высокий шум затрудняет автоматическое определение нуклеотида

Здесь 159-й нуклеотид обратно-комплементарной последовательности был неопознан из-за перекрывания пиков сигнала и шума. Но при обращении к прямой цепи всё становится понятно — там этот участок не является проблемным, и мы чётко видим пик тимина. В [FASTA]-файле в этой позиции поставлена t.
В данном случае 246-й нуклеотид прямой и 265-й нуклеотид обратно-комплементарной последовательности не были опознаны из-за перекрывания пиков сигнала и шума. Обе проблемы решаются аналогично: 246-му нуклеотиду прямой последовательности соответствует 263-й нуклеотид (Т) обратно-комплементарной последовательности, а 265-му нуклеотиду обратно-комплементарной последовательности соответствует 248-й нуклеотид (С) прямой последовтельности. Оба представлены соответствующими пиками.

Размытые пики и их перекрывание

Программой распознаны все позиции, кроме 33-го нуклеотида прямой цепи, однако качество рапознавания сегментов прямой цепи по большей части невелико. Проблемы возникают из-за широкого размытого пика тимина в окрестности 30-й позиции, вершина которого не соответствует общему ритму пиков. Здесь нас опять-таки выручает неплохое качество аналогичного участка обратно-комплементарной цепи (33 нуклеотиду прямой цепи соответствует 50-й нуклеотид обратно-комплементарной цепи).
Проблемы с распознаванием возникают с 571-178 нуклеотидами обратно-комплементарной последовательности. В позиции 571 и 572 четкие пики цитозина и гуанина перекрыватся размытым пиком аденина, который в позициях 573, 574 и 575 дает не менее четкие пики, перекрытые размытым пиком гуанина. Тот же размытый пик мешает распознать тимин в 576 позиции. Все эти проблемы решаются обращением к прямой последовательности.

2. Пример нечитаемой хроматограммы


© Екатерина Посицельская, 2016