Получение последовательности ДНК

Что нужно сделать? Получить последовательность ДНК на основании данных, полученных из капиллярного секвенатора. Составить отчёт о проблемах при чтении хроматограмм.

Файлы в формате .ab с информацией о хроматограмме сохранены на выходе из капиллярного секвенатора (с прямой и обратной цепями). Эти файлы были открыты как один проект в программе GeneStudio.

Сначала были удалены нечитабельные участки хроматограммы. Это происходит автоматически при импорте файла в программу. Они оказались следующими:

  1. Прямая цепь (Скачать 06_F.ab1)
    • Нечитаемый участок на 5' конце: до 19–го нуклеотида
    • Нечитаемый участок на 3' конце: с 693–го нуклеотида
  2. Обратная цепь (Скачать 06_R.ab1)
    • Нечитаемый участок на 5' конце: до 28–го нуклеотида
    • Нечитаемый участок на 3' конце: с 768–го нуклеотида

Общая характеристика хроматограмм:

Перед тем, как перейти к редактированию последовательности, сперва нужно было выровнять прямую и комплементарную к обратной последовательности, что произошло автоматически при загрузке обеих последовательностей в один проект.

Результаты редактирования.

Были получены консенсусная последовательность (просмотр) и изображение с полным выравниванием и редактированием двух хроматограмм (рисунок 1). В целом, качество хроматограммы неплохое (уровень шума низкий), у прямой оно несколько выше, чем у обратной цепи. Для начала рассмотрим случаи полиморфизма, а затем и остальные проблемные нуклеотиды.

Эти случаи были обнаружены на обратной цепи, в той части, что не имеет комплементарного продолжения прямой цепи. На позиции 695 в примерно равном количестве присутствует сигнал гуанина и цитозина (рисунок 2), поэтому этой позиции был присвоен код S (IUPAC Codes). А в случае с позициями 773 и 780 присутсвуют сигналы как цитозина, так и тимина в практически одинаковом количестве, поэтому этим позициям был присвоен код Y (рисунок 3).

Остальные проблемные нуклеотиды содержатся практически на всей длине последовательности. К примеру, 3–ий нуклеотид (рисунок 4) с некоторой точностью имеет код A (точно сказать нельзя: на этом участке нет информации с обратной цепи). Так же и в случае с 36–ым нуклеотидом, он, скорее всего, является тимином T (рисунок 5). На рисунке 6 изображены два спорных нуклеотида по прямой цепи: 319 — C и 321 — T. Мы почти с полной уверенностью можем сказать, что у этих позиций такие коды, так как на обратной цепи эти коды и находятся (комплементарность). Похожий случай изображен на рисунке 7. Нуклеотиды 427 и 434 —  на прямой цепи T и G, соответственно, исходя из информации обратной цепи.

Пример нечитаемого фрагмента хроматограммы

Для данного задания был выбран файл 06_F.ab и был рассмотрен участок с 700–го до 760–го нуклеотида. Как видно из рисунка 8, общая картина хроматограммы в данном участке оставляет желать лучшего. Видны многочисленные пятна красителя, смещенные и совмещенные пики.

bad chromatography
Рисунок 8. Случай полиморфизма, позиции 773 и 780

Дополнительные материалы

full chromatography
Рисунок 1. Сравнение прямого и обратного прочтения
ambiguous 1
Рисунок 2. Случай полиморфизма, позиция 695
ambiguous 2&3
Рисунок 3. Случай полиморфизма, позиции 773 и 780
determined 1
Рисунок 4. Проблемный нуклеотид, позиция 3
determined 2
Рисунок 5. Проблемный нуклеотид, позиция 37
determined 3&4
Рисунок 6. Два проблемных нуклеотида, позиции 319 и 321
determined 5&6
Рисунок 7. Два проблемных нуклеотида, позиции 427 и 434