Исходные хроматограммы: прямая, обратная.
С помощью опции Reverse+Complement из обратной последовательности была получена комплементарная ей. Выравнивание прямой последовательности и последовательности, комплементарной обратной, можно посмотреть ниже:
Начало выравнивания
Конец выравнивания
Можно заметить, что выровненный участок занимает на прямой цепи позиции с 79 по 517 нуклеотид включительно, а на обратной - с 109 по 547 включительно.
Далее требовалось определить нечитаемые участки обеих хроматограмм; они находятся на концах последовательностей, так как при отжиге праймеров для секвенирования на участках, близких к концам, получается много коротких последовательностей, которые сложно анализировать. В первой (прямой) последовательности такие нечитаемые участки занимают позиции с 1 по 147 включительно на 5'-конце, а на 3'-конце нечитаемый концевой участок начинается с позиции 679 включительно. Хотя на 5'-конце нуклеотиды 148 и 149 тоже были включены в нечитаемую область (фон выделен рыжеватым цветом), я решила отнести их к началу читаемого участка, так как пики G и C там были очень хорошие. Во второй последовательности 5'-нечитаемая область занимает позиции с 1 до 34 включительно, а 3'- - с позиции 588 включительно. Здесь я согласилось с оценкой программы относительно нечитаемых областей.
Далее требовалось охарактеризовать на глаз качество каждой хроматограммы и отметить некоторые особенности. В целом, вне нечитаемых областей качество обеих хроматограмм мне кажется удовлетворительным: уровень пиков отдельных нуклеотидов в пять-семь раз превышает шумовые пики (кроме некоторых проблемных нуклеотидов). Впрочем, в некоторых участках уровень шума таков, что на его фоне программа не смогла выделить нуклеотиды цепи и заменила их неопределённым символом N. Из особенностей прямой последовательности сразу бросается в глаза обилие в ней политиминовых (содержащих 4 и более тимидиновых нуклеотидов подряд с единичными вкраплениями других нуклеотидов) участков. Например, такие участки занимают отрезки [623-638], [667-674], [549-555], [408-417], [165-172].
Несмотря на в целом хорошее качество хроматограмм, отдельные позиции в прямой последовательности вызывают сомнения. Среди них:
№1. В позиции 6 имеется маленький, но всё-таки выраженный пик T, который в прямой цепи, тем не менее, обозначен как N. Сопоставление с этой же позицией в цепи, комплементарной к обратной, указывает, что здесь, действительно, стоит тимин, поэтому я поставила там t.
№2, 3, 4. Похожие неонозначные ситуации с плохо выраженными пиками, разрешаемые с помощью цепи, комплементарной к обратной, представлены на рисунке ниже. Опираясь на соответствующие позиции в цепи, комплементарной к обратной, я заменила в прямой цепи N в позиции 44 на t, в позиции 50 на g и в позиции 55 на t:
Файл с последовательностью-результатом
В качестве примера нечитаемой хроматограммы я выбрала NN_G10.ab1.
Можно видеть, что здесь на одну нуклеотидную позицию приходится больше, чем один пик, поэтому, возможно, исходная ДНК была загрязнена. Может быть, она была плохо выделена, а может быть, праймеры для секвенирования отожглись больше одного раза или ПЦР подняло две различные последовательности исходной ДНК.