На главную

Чтение последовательностей по Сенгеру

Файл с неотредактированной последовательностью прямой цепочки ДНК Скачать
Файл с неотредактированной последовательностью обратной цепочки ДНК Скачать
Файл с отредактированной последовательностью прямой цепочки ДНК Скачать
Файл с отредактированной последовательностью обратной цепочки ДНК Скачать
JalView проект выравнивания отредактированных последовательностей Скачать

Для 5' конца первой хроматограммы (хроматограммы прямой последовательности) я сочла нечитаемым фрагмент с 1 по 26 нуклеотиды включительно. Шум на первой хроматограмме заметен почти всегда и лишь на редких участках (длиной до 10 нуклеотидов секвенируемой последовательности) он почти незаметен. Он появляется с самого начала и его уровень нарастает по мере приближения к концу секвенируемой последовательности, соотношение уровня сигнал шум сильно варьирует вдоль последовательности: в начале хроматограммы соотношение высот пиков сигнала к пикам шума может быть около 20 или для некоторых позиций вовсе стремиться к бесконечности (пики шума почти незаметны), в среднем вдоль последовательности пики шума составляют 1/4 - 1/5 высоты пиков сигнала, а в самых плохих случаях пики шума составляют 1/2 или больше высоты пиков сигнала. На протяжении почти всей первой хроматограммы шум редко выходит на уровень сигнала и почти не мешает ее прочтению, однако ближе к концу шум резко нарастает и в совокупности с о сливающимися пиками сигналов довольно рано делает ее нечитаемой: последовательность считается мной нечитаемой уже с 458 нуклеотида (с учетом того что хроматограмма изначально была длиной 690 нуклеотидов, мы отбросили 233 нуклеотида с 3' конца). Таким образом для дальнейшего анализа и редактирования мною был оставлен фрагмент с 27-457 нуклеотиды включительно.

Я сочла нечинаемыми первые 49 нуклеотидов с 5' конца для хроматограммы обратной цепи. Шум на второй хроматограмме тоже присутствует почти всегда и очень редко остается незамеченным на фоне сигналов целевой последовательности, отношение шума к сигналу варьируется так же сильно как и для первой хроматограммы, но уже с самого начала второй хроматограммы часто попадаются пики шума составляющие 1/2 -1/3 или даже равные пикам сигналов, медиана отношения уровня шум/сигнал на глаз лежит в диапазоне 1/4-1/3. Из-за того что шум на второй хроматограмме с самого начала последовательности имеет довольно высокий уровень возникают частые проблемы base calling (софт выдает N). Шум хоть и возрастает ближе к концу хроматограммы, но это увеличение малозаметно. Шумовые пики второй хроматограммы почти с самого начала синхронизируются с пиками секвенируемой последовательности что создает дополнительные трудности в ситуациях когда шум выходит на уровень сигнала - ситуация начинает выглядеть как полиморфизм. Такая синхронизация и более высокое отношение шум/сигнал относительно первой последовательности вероятно являются причиной более низкого параметра quality для второй хроматограммы относительно первой (разброс параметра для обеих хроматограмм одинаков: 1-50+). Вторая хроматограмма в отличии от первой довольно долго остается читаемой, пики сигналов довольно долго не сливаются (или сливаются только основаниями), что позволяет считать читаемыми нуклеотиды читаемыми по 647 (от исходной последовательности) включительно, обрезая 49 нуклеотидов с 3' конца. Итого мы оставляем в анализе 50-647 нуклеотиды исходной последовательности (в координатах для прямой цепи это 12-609 нуклеотиды).

Примеры проблемных мест

ПРИМЕЧАНИЕ на картинках выравниваний хроматограмм верхняя часть картинки всегда принадлежит к хроматограмме прямой цепи, а нижняя к обратной

Пример 1

Возникает неоднозначность в определении нуклеотида на хроматограмме обратной цепи (т.к. это конец хроматограммы второй цепи и уровень шума выходит на уровень сигнала), но по обратной цепи, для которой представленный фрагмент является началом, однозначно следует, что букву N следует заменять на C

Пример 2

Ситуация свойственная для второй последовательности, где уровень шума способен принимать высокие значения и выходить на уровень сигнала на довольно удаленных от начала или конца последовательности участках. Все так же легко восстанавливается по хроматограмме прямой цепи 5 букв N заменяем соответственно на CCTTT.

Пример 3

Пики шума хорошо синхронизированы по времени выхода из капилляра для первой и второй хроматограммы что наталкивает на идею о наличии здесь полиморфизма (217 A полиморфизм (A/C) и 218 G полиморфизм (G/C) по координатам на первой хроматограмме), но довольно высокий уровень шума заставляет от нее отказаться и принять решение в пользу замены N на G.

Пример 4

Участок соответствующий отброшенному концу прямой цепи и началу обратной, поэтому в данной ситуации нельзя сориентироваться по комплементарной цепи что создает некоторые сложности. Как было упомянуто ранее хроматограмма обратной цепи с самого начала имеет высокий уровень шума, пики которого синхронизированы с пиками сигнала, опираясь на этот факт и учитывая то , что последовательность 18S рибосомальной РНК консервативна внутри вида я склонна принимать решения относительно нуклеотидов в данной позиции (самая нижняя хроматограмма из трех на картинке) основываясь на высоте пиков. Какой пик выше-тот и нуклеотид. В одном случае (см картинку) я считаю невозможным понять C или G в данной позиции (пики одинаковые) и ставлю код полиморфизма S.

Нечитаемая хроматограмма

В данном случае base calling даже не присваивает какой либо серии пиков последовательность нуклеотидов, потому что по всей видимости праймеры были подобраны неправильно и отожглись сразу на несколько участков в геноме при проведении секвенирования (или даже при проведении ПЦР) что позволило параллельно поднять несколько различных последовательностей. Наличие нескольких последовательностей дает несколько серий пиков соответствующих каждой последовательности, которые перекрываются и делают невозможным процесс извлечения какой либо информации об искомой последовательности (особенно если они одинаковой высоты как в нашем случае). Помимо наличия нескольких последовательностей в образце на данном участке хроматограммы присутствуют пятна флуоресцентных терминирующих нуклеотидов (Т и С), которые остались в смеси, залитой в хроматограф.


© Кристина Перевощикова, 2018