Чтение последовательностей по Сэнгеру
Чтение хроматограмм. Получение последовательности ДНК на основании данных, полученных из капиллярного секвенатора.
Ссылки на исходные файлы: прямое прочтение, обратное прочтение.
Нечитаемые отрезки: прямо прочтенная последовательность - 5' 1-134 и 678-717 3', обратно - 5' 1-52 и 582-717 3'. Видно, что хуже читается начальный участок последовательности.
В принципе, если оценивать хроматограммы в целом, то каждая из них достаточно качественнная. Шумы есть, но они фоновые и не мешают определению последовательности, причем на протяжении всей хроматограммы уровень шумов относительно уровня сигналов был приблизительно неизменным. Сложные места проверяются другим прочтением.
Здесь приведу несколько редактированных вручную сложных мест:
- на 18 позиции при прямом прочтении находится проблемный нуклеотид из-за наложения двух пиков, один из которых соответствует цитозину (пик повыше), а другой соответствует гуанину (пик пониже). При обратном прочтении на этой позиции четко был выражен сигнал от цитозина, поэтому я исправила N на c при редактировании последовательности. Если обратить внимание на соседние пики в прямом прочтении, то можно заметить, что пик на 17ой позиции, соответствующий гуанину, в два раза выше близ лежащих. Вероятно, фрагменты ДНК, терминированные гуанином в этой позиции, были в избытке, и некоторое их количество могло пройти через детектор вместе с фрагментами ДНК, терминированными цитозином, откуда и следует наложение пиков.
- на 13 позиции при прямом прочтении обнаружен проблемный нуклеоид в результате наложения пиков, соответствующих тимину (пик пониже) и аденину (пик повыше). По обратному прочтению становится ясно, что на этой позиции должен находиться аденин. Наличие здесь сложного места обуславливается выраженным шумом, к которому, в частности, можно отнести пик аденина.
- на 151 позиции при обратном прочтении обнаружился проблемный нуклеотид, так как сигнал, соответствующий цитозину, оказался довольно слабым и сливался с шумом. В этой позиции при прямом прочтении программа однозначно присвоила цитозину. Мне кажется, наличие последовательности подряд идущих тиминов с 144ой по 153ью позиции могло привести к ошибке (возможно, проскальзывание полимеразы).
- на 464 позиции при обратном прочтении обнаружился проблемный нуклеотид: на сигнал от тимина наложился сигнал от гуанина. Ориентируясь на сигнал в этом месте при прямом прочтении, я вставила здесь тимин. В окрестности этого проблемного нуклеотида сильно выражен сигнал от гуанина, который перекрывает и соседние 464ому нуклеотиду позиции; как мне кажется, это и привело к появлению сложного места. Почему в этой области такой смазанный сигнал от гуанина, непонятно. Возможно, дело в световых сигналов от загрязнения или еще чего-нибудь.

Мне не встретились полиморфизмы в изучаемой последовательности: я не нашла ситуации, при которой бы было, например, наложение пиков при отстутсвтвии сильного шума одновременно как при прямом прочтении, так и при обратном.
Ссылка на Jalview проект с выравниванием
Нечитаемый фрагмент хроматограммы
На фото приведен нечитаемый фрагмент хроматограммы в начальном участке прочтения. По центру изображения находится очень сильный сигнал: например, это может быть пятно краски. Вообще эти начальные участки последовательности нечитаемы, так как, как вариант, праймер может отжигаться на коротких последовательностях, которые есть в пробирке (например материал для ПЦР был нечистым, и среди нужных нам ДНК фрагментов там могли оказаться какие-нибудь другие короткие последовательности ДНК, на которых тоже был участок, комплементарный праймеру, и которые, следовательно, тоже могли амплифицироваться в результате ПЦР), и при секвенировании сигналы от этих коротких фрагментов могут накладываться на сигналы от ДНК, которую мы и хотим секвенировать.
© Агаева Зара, 2018