Исходные файлы прочтений доступны по ссылкам: F-read, R-read.
На основании прочтений была сгенерирована референсная последовательность с помощью Pearl, на которую были выровнены прочтения. Выравнивание в формате fasta доступно по ссылке.
На основании выравнивания и данных хроматограммы была получена консенсусная последовательность в формате fasta, отредактированная в UGENE.
40 — шум, похожий по интенсивности на сигнал, визуально определяется как A | 146-147 — неразличимые пики в F-прочтении, заменены на T. | 410 — полиморфизм в F-прочтении, A в F-прочтении | 487 — ошибка в последовательности, сгенерированной программой, полиморфизм в F-прочтении, явное A в R-прочтении. | 723 — шмер в R-прочтении, однозначно G в F-прочтении | 803 — полиморфизм в обоих прочтениях, решено оставить N |
---|---|---|---|---|---|
F-прочтение качественное с позиции 96 по 743, однако при автоматической генерации последовательности, взятой за референсную, рид был включеа только по позицию 728. R-прочтение - качественное с позиции 1 по 689, его нечитаемые участки попадают в сгенерированную последовательность.
Как уже было отмечено, R-прочтение читаемо с первой своей позиции, причем расстояние между пиками было одинаковым с самого начала, а сигнал от отдельных нуклеотидов перестал сохраняться между пиками начиная примерно с позиции 56. В остальных случаях в начале и в конце хроматограмм наблюдалось различающиеся по амплитуде сигналы, которые возникали и затухали на большом расстоянии от главного пика. Тем не менее расстояние между пиками на протяжении обеих хроматограмм было примерно одинаковым. Исключения составляли только некоторые участки повторяющихся нуклеотидов. Пики в F-прочтении были заметно больше, а высота их была менее равномерна.
Ниже представлены оценки качества хроматограмм в зависимости от позиции на каждой из них, расчитанные с помощью модуля SeqIO библиотеки Bio для Python. Графики были построены с помощью библиотеки Matplotlib.
Ниже представлен типичный фрагмент середины данной хроматограммы
В начале и в конце хроматограммы ожидаемо возникают неточные сигналы, возникающие и затухающие на большом расстоянии от пика. Однако там же наблюдаются полиморфизмы, которые не исчезают в середине хроматограммы, где сигналы более четкие, а пики похожи по форме и размеру. Полиморфизмы наблюдаются почти на каждом пике, а количество различных сигналов на предполагаемую позицию достигает четырех. Таким образом, можно предположить наличие в образце более четырех различных последовательностей ДНК.