Чтение последовательностей по Сэнгеру

Для работы использовались файлы Cs1_18SIII_F_B05_WSBS-Seq-1-08-15.ab1 и Cs1_18SIII_R_B06_WSBS-Seq-1-08-15.ab1, с прямой и обратной цепями соответственно.

Ниже приведены ссылки на последовательности в fasta, построенные из предположения, что если в одном из прочтений нуклеотид не определен, но определен в другом, то это определение можно считать достоверным, и на выравнивание прямого и обратного прочтения в виде проекта JalView:

Прямая цепь

Обратная цепь

Выравнивание

1. Общая характеристика хроматограммы

Нечитаемые участки на прямой цепи:

c 5' конца: 1-25

c 3' конца: 515-834

На обратной цепи:

c 5' конца: 1-29

c 3' конца: 693-834

Сигнал нельзя назвать равномерным, особенно заметна разница в высоте пиков ближе к концам последовательности, к 3'-концу сильнее. Так же изменяется уровень шума - отношение высоты шума к высоте пиков увеличивается к 3' концу. При этом прямое прочтение менее зашумлено в сравнении с обратным - примерно 1/5-1/7 высоты пика против 1/3 с непродолжительными улучшениями ближе к середине хроматограммы.

2. Проблемные нуклеотиды

Редактирование последовательности свелось к удалению некачественных концевых участков хроматограммы и замене нуклеотидов, опираясь на последовательность противоположной цепи.

Далее для каждого рисунка сверху будет находиться прямое прочтение, а под ним - обратное.

Рисунок 1. (слева) В обратном прочтении 116 и 119 нуклеотиды не определены. Сигнал 116 плохо выражен и почти сопоставим с высотой шума, но на прочтении прямой последовательности этому нуклеотиду соответствует сигнал цитозина. Высота пика 199 нуклеотида так же не очень сильно отличается от высоты шума.

Рисунок 2. (справа) Здесь видно, что качество сигнала обратного прочтения намного хуже качества прямого. Сигнал нуклеотида 61 практически не выделяется на фоне широкого сигнала соседних пар тимина, однако сравнение с прямым прочтением четко свидетельствует о наличии между тиминами цитозина. Неопределенность с тимином 66 скорее всего возникла из-за высоты шума, равной половине высоты пика.

Рисунок 3. (слева) В случае прямой последовательности сигнал проблемного нуклеотида слишком слаб, в случае обратной - по высоте несильно отличается от шума. В обоих случаях последовательность была восстановлена по противоположной.

Рисунок 4. (справа) В обратном прочтении не были определены три нуклеотида: 372, 377 и 379. Высота пика каждого из трех трех нуклеотидов почти равна токовой у шума. То, что пики принадлежат гуанину, видно из прямого прочтения. В прямой последовательности сигнал 451 нуклеотида находится очень близко к сигналу 450, на его место было решено поставить аденин.

3. Нечитаемый фрагмент хроматограммы

Рисунок 5. Пример нечитаемого фрагмента хроматограммы

В качестве примера плохой хроматограммы был взят файл L46_COI_F_A07_WSBS-Seq-07-10-16.ab1. В центре изображения видны два больших и широких пика, скорее всего это следы краски, появившиеся либо из-за ошибки секвенатора, либо из-за загрязнения препарата. В последовательности с обеих сторон от следов краски пики примерно одной высоты наслаиваются друг на друга, такое возможно либо если одновременно читаются два разных или принадлежащих одной и той же последовательности фрагмента ДНК, либо если праймер для секвенирования отжегся на два разных участка.