Sanger sequencing

Сборка контига. Анализ хроматограмм

Исходные файлы прочтений доступны по ссылкам: F-read, R-read.

На основании прочтений была сгенерирована референсная последовательность с помощью Pearl, на которую были выровнены прочтения. Выравнивание в формате fasta доступно по ссылке.

На основании выравнивания и данных хроматограммы была получена консенсусная последовательность в формате fasta, отредактированная в UGENE.

Примеры проблем в хроматограмме

40 — шум, похожий по интенсивности на сигнал, визуально определяется как A 146-147 — неразличимые пики в F-прочтении, заменены на T. 410 — полиморфизм в F-прочтении, A в F-прочтении 487 — ошибка в последовательности, сгенерированной программой, полиморфизм в F-прочтении, явное A в R-прочтении. 723 — шмер в R-прочтении, однозначно G в F-прочтении 803 — полиморфизм в обоих прочтениях, решено оставить N

Общая характеристика хроматограммы

F-прочтение качественное с позиции 96 по 743, однако при автоматической генерации последовательности, взятой за референсную, рид был включеа только по позицию 728. R-прочтение - качественное с позиции 1 по 689, его нечитаемые участки попадают в сгенерированную последовательность.

Как уже было отмечено, R-прочтение читаемо с первой своей позиции, причем расстояние между пиками было одинаковым с самого начала, а сигнал от отдельных нуклеотидов перестал сохраняться между пиками начиная примерно с позиции 56. В остальных случаях в начале и в конце хроматограмм наблюдалось различающиеся по амплитуде сигналы, которые возникали и затухали на большом расстоянии от главного пика. Тем не менее расстояние между пиками на протяжении обеих хроматограмм было примерно одинаковым. Исключения составляли только некоторые участки повторяющихся нуклеотидов. Пики в F-прочтении были заметно больше, а высота их была менее равномерна.

Ниже представлены оценки качества хроматограмм в зависимости от позиции на каждой из них, расчитанные с помощью модуля SeqIO библиотеки Bio для Python. Графики были построены с помощью библиотеки Matplotlib.

Пример нечитаемой хроматограммы

Ниже представлен типичный фрагмент середины данной хроматограммы

В начале и в конце хроматограммы ожидаемо возникают неточные сигналы, возникающие и затухающие на большом расстоянии от пика. Однако там же наблюдаются полиморфизмы, которые не исчезают в середине хроматограммы, где сигналы более четкие, а пики похожи по форме и размеру. Полиморфизмы наблюдаются почти на каждом пике, а количество различных сигналов на предполагаемую позицию достигает четырех. Таким образом, можно предположить наличие в образце более четырех различных последовательностей ДНК.