Чтение последовательностей по Сэнгеру

Практикум 6

Задание 1.

Последовательность ДНК на основании данных, полученных из капиллярного секвенатора по Сэнгеру.

     Для анализа было предложено два файла, один с прямой, другой с комплиментарно последовательностью.

Ссылки на скачивание:

Прямое прочтение WS2968_COI_F_C09_WSBS-Seq-4-08-15.ab1
Обратное прочтение WS2968_COI_R_C10_WSBS-Seq-4-08-15.ab1

    Общая характеристика хроматограммы:

  • Длины начальных нечитаемых участков: для прямого прочтения - до 38 основания, для обратного - до 20 (здесь и далее - нумерация для компементарной цепочки).
    На конечных участках: для прямого - после 648 основания, для обратного - на мой взгляд, хроматограмма читаема до конца.
  • За исключением некоторых моментов (например - 639-645 при обратном прочтении), уровень шума достаточно низок - около 10% от нормального сигнала и меньше.
  • Для обоих прочтений: сила сигнала варьирует в достаточно широких пределах, но сигнал всегда отличим от шума. Шум практически всегда на очень низком уровне, но дважды образует широкие очень размытые пики сопоставимой с сигналом высотой, но которые достаточно легко отличить от непосредственно сигнала.
  • В прямом прочтении качество хроматограммы начинает падат начиная с 630 основания. В обратном - размытые пики на участке 50-70. Хорошее качество до конца хроматограммы.

    Примеры исправления нуклеотидов:

1 2 3-5

Прямое прочтение (хроматограмма сверху).
50-й нуклеотид программа обозначила как N, однако при анализе хроатограммы очевидно, что это T.
Так же это явно читается при обратном прочтении (хроматограмма снизу).

Прямое прочтение (хроматограмма сверху).
396-й нуклеотид обозначен программой как T, хотя случай осложняется достаточно высоким вторым пиком в этой позиции. Однако сопоставлние с обратным прочтением (хроматограмма снизу) позволяет удостовериться, что это действительно T.

Обратное прочтение.
В прямом прочтении данный участок нечитаем, а потому все выводы делались исключительно по данным хроматограммы.
В 34-й, 37-й и 40-й позиции программой предложен вариант N, тогда как я считаю целесообразным поставить Y, C и R соответственно.
В первом и последнем случае мы можем говорить о полиморфизме, так как присутствуют 2 пика сопоставимой высоты. Во втором случае второй пик, скорее всего, можно отнести к шуму.


Исправленные последовательности в fasta-формате:

Прямое прочтение WS2968_COI_F_C09_WSBS-Seq-4-08-15.ab1
Обратное прочтение WS2968_COI_R_C10_WSBS-Seq-4-08-15.ab1


После редактирования хроматограмм вручную, результаты были сохранены в fasta-формате. Последовательности были глобально выравнены с помощью программы needle пакета Emboss: needle WS2968_COI_F.fasta WS2968_COI_R.fasta -outfile FR _sanger.fasta -aformat3 fasta. Штрафы за гэпы были выбраны по умолчанию.

Результаты:


Ссылки:
Fasta-файл
Визуализация в программе JalView


Задание 2.

Примеры нечитаемых фрагментов хроматограмм

Хроматограмма нечитаема вследствие слишком большого колличества шума, начисто перебивающего сигнал. Разобрать что-либо совершенно невозможно. Видимо, это результат того, что препарат содержал несколько разных ДНК.
Сходная ситуация, хотя, конечно, все не так плохо как в первом случае. Тем не менее, руководствоваться данной хроматограммой при определении последовательности нельзя - уровень шума слишком высок. В некоторых позициях невозможно сказать, имеем ли мы дело с проявлением полиморфизма или же побочные пики просто следствие шума.


Назад
© Петрова Юлия 2016