Секвенирование по Сэнгеру

На данной странице представлен практикум по созданию и анализу файлов с последовательностями ДНК, полученных на основании работы с хроматограммами из капиллярного секвенатора.

1) Получение последовательностей ДНК на основании данных, полученных из капиллярного секвенатора. Отчёт о проблемах при чтении хроматограмм

Для анализа качества хроматорграмм, полученных капиллярным секвенатором, и создания консенсусной последовательности, были загружены файлы прямого и обратного прочтений.

Параметры хроматограммы:

Параметры прямой хроматограммы (32_F.ab1):

Параметры обратной хроматограммы (32_R.ab1):

Сборка консенсуса:

Для создания первичного консенсуса был использован инструмент выравнивания прочтений на референсную последовательность в программе Ugene. В качестве референса была взята одна из последовательностей (32_F.ab1), относительно которой были выровнены изучаемые прочтения. Полученный консенсус считаю первичным, он был выгружен и использован в качестве референсной последовательности в следующем выравнивании с теми же ридами. Полученный контиг (без корректировки) можно загрузить в формате fasta по ссылке, а также увидеть на рисунке 1; консенсус данного выравнивания считаю вторичным, его можно загрузить по ссылке.
Общая длина выравнивания: 409 нуклеотидов; длина перекрывающегося участка: 300 нуклеотидов. При создании контига Ugene автоматически обрезает нечитаемые концы:

Несмотря на то, что автоматическое определение нечитаемых концевых участков прочтений более сторго, т.е. обрезает большие фрагменты, в сравнении с визуальной оценкой, различия у этих 2 методов в данном случае суммарно меньше 10 нуклеотидов, что не является критичным для аннотации ридов.

Далее производилась корректировка аннотации хроматограммы и создание более точного консенсуса с учетом знания прямого и обратных прочтений. Некоторые проблемные места описаны в следующем пункте данного упражнения. Итоговый консенсус: ссылка; проект в Ugene: ссылка.

Рисунок 1. Выравнивание прямого и обратных прочтений с общим консенсусом.

Проблемные места хроматограммы:

1error
На данном участке хроматограммы есть два неопределенных нуклеотида с уровнем шума выше среднего, поскольку нет хроматограммы комплементарного рида, было решено 2 нуклеотид оставить неопределенным, т.к. уровень шума слишком высок, а 4 изменить на аденин.
В этом участке хроматограммы есть два плохо разделившихся нуклеотида, но поскольку есть комплементарная хорошо разрешенная хроматограмма, было решено изменить 57 нуклеотид на аденин, а 58 на гуанин.
1error
1error
На нижней хроматограмме, видимо, образовалаось пятно краски гуанинового флуорофора, которое повлияло на соседние пики, но поскольку есть комплементарная хорошо разрешенная хроматограмма, было решено изменить 258 нуклеотид на гуанин. Примечательно также, что остальные нуклеотиды, на которые повлияло это пятно, аннотировались правильно, что говорит о качестве алгоритмов расшифровки.
На нижней хроматограмме заметны сильные искажения в последовательности пиков, но так как верхняя хроматограмма обладает хорошим разрешением, можно восстановить исходную последовательность и предположить пятно краски или искажения геля, вызвавшие подобный эффект. 299 нуклеотид решено изменить на аденин. Также как и в прошлом примере, хочется отметить качество алгоритмов чтения хроматограмм, т.к. возникло только одно затруднение при чтении этого проблемного участка.
1error
1error
На данном участке хроматограммы присутствует три проблемных нуклеотида с высоким уровнем шума, из-за отсутствия комплементарного прочтения вывод о точной последовательности не очень точный 375 и 378 нуклеотиды решено заменить на неизвестный пиримидины (Y), а 384 нуклеотид оставить в виде неизвестного из-за черезмерно высокого уровня шума.

Кроме вышеперечисленных, были отрецензированы все проблемные нуклеотды в данном выравнивании. С результатами составления консенсуса можно ознакомиться:

2) Нечитаемые фрагменты хроматограммы:

Участки хроматограмм могут быть нечитаемыми по разным причинам, две из которых будут разобраны в данном упражнении:

Рис. 2 Нечитаемый участок в начале хроматограммы

В данном случае приведен участок с начала хроматограммы, где помимо изучаемого образца фиксируется свечение отдельных нуклеотидов, флуорофоров и других неспецифичных коротких последовательностей, которые сильно затрудняют расшифровку хроматограммы.

На этой хроматограмме видно характер распределения пиков, когда в изучаемой последовательности происходит инсерция-делеция. Этот участок находится посередине хроматограммы, и можно увидеть момент, когда начинается несовпадение пиков. В данном случае индель величиной 1 нуклеотид.

Рис. 3 Индель в анализируемой последовательности
© Беляев Геннадий, 2020 ‐ 2026