В задании необходимо было проанализировать данные (хроматограмму и автоматически прочтенную последовательность), полученную с капиллярного секвенатора. Все файлы были даны в формате .ab1. Для просмотра и редактирования автоматического прочтения этих хроматограмм использовалась программа Chromas (Lite). Исходные файлы:
В программе Chromas (Lite) требовалось открыть файлы с прямой и обратной последовательностями ДНК, во втором окне с обратной цепью перейти к комплементарной цепи (с помощью команды Edit > Reverse+Complement), настроить одинаковый масштаб по горизонтали и произвести выравнивание двух хроматограмм с использованием поиска подслов Find. С помощью опции Continuous edit были удалены не читаемые 5'- и 3'- концы, чьи координаты в разных цепях представлены в таблице ниже. Все координаты определены по прямой последовательности.
Границы не читаемых 5'- и 3'-участков
Нечитаемый участок (координаты по прямой последовательности) | 5'-конец | 3'-конец |
Прямая | 1-130 (130 bp) | 684-717 (33 bp) |
Обратная | 1-32 (32 bp) | 587-717 (130 bp) |
Некоторые участки(как в середине последовательности, так и по краям) нечитаемы в одной последовательности, но при этом их можно определить в другой. Объединяя результаты для двух цепей, можно получить наиболее точную и полную нуклеотидную последовательность.
Качество хроматограммы неплохое, мощность сигнала в интервале 131-650 bp достаточная для однозначного определения последовательности ДНК. Качество сигнала от каждого нуклеотида в среднем довольно высокое (Q~20), можно заметить разброс силы сигнала между разными нуклеотидами: у аденина и гуанина пики в разы выше, чем у пиримидиновых оснований. Ближе к зоне разделения между читаемым и нечитаемым фрагментом качество хроматограммы и сигнала падает, пики становятся более размытыми, на некоторых наблюдается перекрывание. На концевых участках уровень шума возрастает и отличить его от сигнала становится невозможно. Размер нечитаемого конечного участка длиннее на 5'-конце.
Качество хроматограммы обратной цепи также хорошее, мощность сигнала в интервале 50-580 bp достаточная для однозначного определения последовательности ДНК. Качество сигнала от каждого нуклеотида в среднем довольно высокое (Q~20), можно заметить разброс силы сигнала между разными нуклеотидами: у цитозина и тимина пики в разы выше, чем у пуриновых оснований. Ближе к зоне разделения между читаемым и нечитаемым фрагментом качество хроматограммы и сигнала падает, пики становятся более размытыми, на некоторых наблюдается перекрывание. На концевых участках уровень шума возрастает и отличить его от сигнала становится невозможно. Размер нечитаемого конечного участка длиннее на 3'-конце(после команды Edit > Reverse+Complement). Далее я проанализировала последовательности и отредактировала их посредством сравнения результатов двух хроматограмм и исправления потенциально возможных ошибок софта секвенатора. Все исправления внесены строчными буквами. В процессе редактирования хроматограмм нередко возникали ситуации, когда однозначный выбор нуклеотида в позиции был невозможен. В итоговых fasta-файлах на таких позициях ставились буквы вырожденного кода(IUPAC Ambiguity Codes[1]). Таблица 1. IUPAC Ambiguity CodesПолучены итоговые нуклеотидные последовательности двух цепей ДНК, с помощью программы JalView построено их выравнивание с раскраской по нуклеотидам. На основании полученых данных была составлена итоговая нуклеотидная последовательность.
Рис.3 Выравнивание, раскрашенное по схеме Nucleotide. Проблемные нуклеотиды отмечены строчными символлами с использованием IUPAC Ambiguity Codes.
Описание проблемы | Изображение прямой цепи | Изображение обратной цепи |
1. Обозначенный буквой N нуклеотид был не определен программой в прямой цепи, так как в ней на этой позиции наблюдается довольно сильный шумовой сигнал. В обратной последовательности присутствует лишь один выраженный пик аденина при минимальном сигнале шума. |
![]() | ![]() |
2. Обозначенный буквой N нуклеотид был не определен программой в обратной цепи, так как в ней на этой позиции наблюдается сигнал, практически не отличающийся по силе от шумового. В прямой последовательности присутствует лишь один выраженный пик цитозина при практически отсутствующем сигнале шума. |
![]() | ![]() |
3. Обозначенный буквой N нуклеотид на 3 позиции был не определен программой в обратной цепи, так как в ней на этой позиции наблюдается два эквивалентных по силе сигнала: тимина и цитозина. В прямой последовательности аналогичный участок не читаем. В соответствии с таблицей IUPAC Ambiguity Codes был указан символ Y вырожденного кода. |
- | ![]() |
4. Обозначенные буквой N нуклеотиды в позциях 480 и 484 были не определены программой в обратной цепи, так как в ней на этой позиции наблюдается слабые сигналы, которые легко могут быть спутаны с шумом. В прямой последовательности на этих позициях присутствуют достаточно выраженные пики аденина и тимина при слабом сигнале шума. |
![]() | ![]() |
На рис. 4 приведен пример не читаемого фрагмента хроматограммы. Высокий уровень шума и перекрывающиеся пики указывают на загрязнение образца или возможное нахождение в нем нескольких разных ДНК. Сильно выдающиеся и размытые пики по центру могут быть пятнами краски.
Рис.4 Пример плохой хроматограммы.![]()
Источники:
© Avdiunina Polina, 2015