Чтение последовательностей по Сэнгеру



В этом практикуме необходимо было прочитать последовательность ДНК на основании данных, полученных из капиллярного секвенатора по Сэнгеру с помощью программы Chromas. Капиллярный секвенатор по Сэнгеру выдает файлы с хроматограммой и автоматически прочтенной последовательностью в формате .ab1.
Исходные файлы: прямая цепь, обратная цепь.

Оба заданных файла были открыты в программе Chromas. Для обратной цепи была открыта комплементарная последовательность (Edit>Reverse+Complement). Затем две хроматограммы были выровнены с сохранением масштаба с помощью поиска подслов (find). Проанализируем полученные хроматограммы.
Сначала были определены нечитаемые участки для обеих цепей (для обратной цепи использовалась комплементарная последовательность). Они оказались следующими: прямая цепь: 5' 1-69. Для 3'-конца трудности в определении нуклеотида возникают после 680-го нуклеотида, но неопределенных нуклеотидов все равно довольно мало, несмотря на резкое ухудшение качества хроматограммы. В принципе, можно сказать, что нечитаемый участок здесь отсутствует. Для обратной цепи нечитаемый участок со стороны 5'-конца отсутствует. Кроме того, 70 нуклеотид прямой цепи, (до которого идет нечитаемый участок) соответствует 100 нуклеотиду обратной цепи (здесь и далее речь будет идти о комплементарной последовательности). Здесь можно отметить, что несмотря на хорошее качество сигнала, почти все пики обратной цепи до 100-го нуклеотида раздвоены. Что касается 3'-конца, то у обратной цепи не читаются нуклеотиды начиная примерно с 599 (соответствует 568 нуклеотиду прямой цепи). При этом в прямой цепи этот участок хроматограммы вполне читаем. Таким образом, совмещая две хроматограммы, можно добиться минимального возможного количества ошибок в определенной нуклеотидной последовательности.

После удаления нечитаемых участков и замены проблемных нуклеотидов, в Jalview было получено выравнивание, представленное на рис.1. Раскраска по нуклеотидам.
Открыть выранивание: alignment.msf.
Скачать проект с выравниванием: alignment.jar.

Рис.1. Полученное выравнивание двух последовательностей (измененные нуклеотиды обозначены маленькими буквами.
На рис.1 видно последовательность нуклеотидов 132-543, которая была выбрана как итоговый результат и записана в файл в качестве полученной после анализирования хроматограмм итоговой последовательности: посмотреть.

А теперь попробуем разобраться, почему некоторые нуклеотиды были заменены на другие. На рис. 2-6 показаны произведенные замены (на рисунках а) показана прямая цепь, а на рисунках б) — обратная). В подписях к картинкам приведены объяснения сделанного выбора. Нуклеотиды, которые были заменены, выделены желтым кружком, а те, на которые производилась замена — подчеркнуты красным.

Рис. 2 a)
Рис. 2 б)
Рассмотрим самое начало последовательности. На хроматограмме прямой цепи не определены нуклеотиды №12, 19, 20. Для нуклеотида №12 сигнал настолько слаб, что сливается с шумом, из-за чего он не может быть определен. В то же время на хроматограмме обратной цепи сигнал этого нуклеотида достаточно сильный, а качество сигнала, как мне кажется, достаточно, для того, чтобы считать гуанин верным нуклеотидом. Далее в прямой цепи не определены нуклеотиды №19, 20 из-за очень сильного постороннего сигнала (пятна краски?). Однако на хроматограмме обратной цепи вполне приемлимые два сигнала, показывающие, что на этих позициях находятся гуанин и тимин. И, наконец, для обратной цепи нуклеотид №110 также не был определен из-за слабого сигнала, сравнимого с шумом. Для прямой цепи программа определила нуклеотид, как цитозин, хотя сигнал, как и его качество, не особо хорошие.
Таким образом, были заменены в общей сложности четыре нуклеотида. При этом хочется отметить, что хроматограмма для прямой цепи может считаться верной только при сопоставлении с лучшей хроматограммой обратной цепи, т.к. для нее шум слишком силен и качество сигналов слишком низкое, чтобы считать определенную последовательность 100% верной. Например, на участке с 16 по 28 нуклеотид хроматограмма вообще бесполезна для прочтения последовательности. В нашем случае, однако, сопоставление показало, что последовательность определена верно. Хотя плохая хроматограмма в обоих случаях может порождать сомнения.
Рис. 3 а)
Рис. 3 б)
На хроматограмме прямой цепи нуклеотид №35 не определен, т.к. сигнал слился с шумом. В то же время на хроматограмме обратной цепи сигнал достаточно хорошего качества и сам пик довольно четкий и высокий (=> сигнал сильный). Поэтому для прямой цепи была сделана замена на гуанин. Также хочется отметить, что несмотря на относительно низкий уровень шума на хроматограмме обратной цепи, многие пики не разделены до конца. Тем не менее, качество сигнала этих участков хорошее, и для прямой цепи нуклеотиды были определены так же, поэтому делаем вывод, что все ок.
Рис. 4 а)
Рис. 4 б)
Для прямой цепи не определены 2 нуклеотида: №89 и №100. И если 89-й нуклеотид вполне верно судя по качеству сигнала определен как гуанин на хроматограмме для обратной цепи судя (поэтому в прямой цепи N было заменено на g), нуклеотид №100 не определен и для обратной цепи. В хроматограмме прямой цепи мы видим практически одинаковые по силе сигналы от цитозина и гуанина, в то время как на хроматограмме для обратной цепи в этой позиции более сильный сигнал от гуанина и более слабый — от тимина. Так как во втором случае сигнал от цитозина сильнее и так как сигнал от цитозина присутствует в обеих хроматограммах, вместо N была поставлена c. Причина плохого качества сигнала в этой позиции в обеих хроматограммах точно не ясна; возможно, это связано с загрязнением или высоким уровнем шума (который достаточно высок и для соседних позиций). Данное событие (одна и та же позиция не определилась одновременно для обеих цепей), по идее, должно происходить достаточно редко.
Рис. 5 а)
Рис. 5 б)
В этот раз все довольно однозначно. На хроматограмме обратной цепи гуанин № 358 почему-то не был определен программой, хотя пик достаточно высокий при небольшом уровне шума. Для прямой цепи этот нуклеотид был определен как гуанин, поэтому в обратной цепи без сомнений был вставлен g.
Рис. 6 а)
Рис. 6 б)
На хроматограмме справа для обратной цепи на рассматриваемом участке произошло что-то странное. Несмотря на это не определены только два нуклеотида: №369 и 372. Т.к. для прямой цепи оба этих нуклеотида определены с хорошим качеством сигнала как тимин и аденин соответственно, для обратной цепи было сделано две замены.
Рис. 7 а)
Рис. 7 б)
В этот раз, как мне кажется, все тоже понятно. Несмотря на сравнимые пики для 315-го нуклеотида прямой цепи, на хроматограмме обратной цепи тот же нуклеотид определен как гуанин, поэтому была сделана соответствующая замена.
Рис. 8 а)
Рис. 8 б)
Такая же ситуация, как в предыдущем случае. 395-й неопределенный нуклеотид прямой цепи был заменен на a.
Рис. 9 а)
Рис. 9 б)
Аналогично: неопределенный 525-й нуклеотид обратной цепи был заменен на g. Хочется тут также отметить, что шум начинает постепенно усиливаться, а сила сигнала падать.
Рис. 10 а)
Рис. 10 б)
Можно заметить, что хроматограмма обратной цепи резко ухудшается, и становится все больше неопределенных нуклеотидов. В то же время хроматограмма прямой цепи сохраняет примерно то же качество. Здесь была сделана одна сомнительная замена 491-го нуклеотида прямой цепи на тимин. Сомнительная она потому, что качество сигнала для обратной цепи очень низкое, несмотря на относительно высокий пик. В общем, так как близится конец хроматограммы, качество ее ухудшается, и, соответственно, возможны ошибки в определении нуклеотидов.


Таким образом, после анализа хроматограмм относительно достоверной была принята последовательность нуклеотидов 132-543 из выравнивания, которая и была записана в файл fasta, упомянутый ранее. Многие позиции неоднозначны из-за бесполезности чтения хроматограмм. В этом случае верными считались нуклеотиды, определенные для одной из цепей. Также необходимо помнить, что нуклеотиды, определенные одинаково в обоих случаях, скорее всего, верны.
В целом уровень шума не так уж низок, в некоторых случаях он даже сравним с сигналами от нуклеотидов, что затрудняет чтение хроматограммы. Никаких резких ухудшений качества найдено не было. Передние и задние концы нечитаемы (из-за наличия коротких фрагментов, на которых отжигается праймер - презентация), но сопоставление двух хроматограмм позволяет делать вывод о верности определения нуклеотидов на тех или иных позициях.

На рис. 13 приведен пример нечитаемой хроматограммы. Причины могут различаться. Возможно, в препарате присутствует не одна ДНК, он чем-то загрязнен и т.п.
Скачать хроматограмму.

Рис.13. Нечитаемая хроматограмма