Учебный сайт Птицыной Елены

Cтудентки первого курса факультета биоинженерии и биоинформатики Московского государственного университета имени М.В. Ломоносова

Семестр 3, практикум 6

Назад на учебную страницу Птицыной Елены

Секвенирование по Сэнгеру

В этом практикуме мы анализировали хроматограммы, полученные при секвенировании по Сэнгеру.

Задание 1.

Исходные файлы: 10_F.ab1, 10_R.ab1,

Хроматограммы были открыты в программе Chromas (Lite).

Нечитаемые 5' и 3' участки. Программа выделила жёлтым начальные и концевые участки, являющиеся, по её мнению, нечитаемыми. Мы немного поправили решение программы. Если мы хотим поправить выделение на левом конце хроматограммы, надо поставить галочку Options -> Continuous Edit, потом зажать клавишу Shift и правой кнопкой мыши менять выделение, щёлкая по нуклеотидам. Если мы хотим поправить выделение на правом конце, надо перевернуть хроматограмму с помощью Reverse и выполнить те же действия. Дальше вернуть c помощью Reverse в исходное положение. Номера нуклеотидов, соответствующих нечитамым 5' и 3' концам, представлены в Таблице 1 (табл. 1). Нумерация нуклеотидов для обратной цепи дана такой же, какой она получается при загрузке изначального файла 10_R.ab1 в программу.

Таблица 1. Нечитаемые участки. Без скобок дано решение программы, в скобках - скорректированное решение.
5’ 3’
Прямая 1-163 (1-158) 677-717 (676-717)
Обратная 1-279 (1-248) нет (1-39)

Удалены были 5' и 3' нечитаемые концы уже после сравнения хроматограмм, поэтому нумерация нуклеотидов на прямой и обратных последовательностях в примерах ниже дана такая же, как в необрезанных файлах.

Сравнение хроматограмм. Далее обратная последовательность была переведена в комплементарную (Edit > Reverse+Complement), затем с помощью поиска (Find) подслов проведено ручное выравнивание хроматограмм в одинаковом масштабе. Далее были рассмотрены проблемные места. Примеры проблемных мест приведены ниже, исправления сделаны заменой прописных букв на строчные.

Пример 1
Рисунок 1. Пример 1. В прямой последовательности не распознан нуклеотид 162 из-за подпиков и соседнего лишнего пика другого нуклеотида той же высоты. Но красный пик t весьма заметен. По обратной последовательности тоже понятно, что здесь t.
Пример 2
Рисунок 2. Пример 2. В обратной последовательности не распознан нуклеотид 214 из-за плавного подпика. Но красный пик t весьма заметен. По прямой последовательности тоже понятно, что здесь t.
Пример 3
Рисунок 3. Пример 3. В прямой последовательности не распознан нуклеотид 220 - возможно, из-за расширения пика и маленького сдвинутого подпика. Но зелёный пик a весьма заметен. По прямой последовательности тоже понятно, что здесь a.
Пример 4
Рисунок 4. Пример 4. В обратной последовательности не распознан нуклеотид 264 из-за шумового сигнала C, который состоит из 3 слитых зубцов. Один из этих зубцов почти совпадает с истинным флуоресцентным сигналом. Судя по прямой последовательности, здесь t. По обратной последовательности это действительно не очень очевидно, так как шумовой сигнал очень велик.
Пример 5
Рисунок 5. Пример 5. В прямой последовательности не распознан нуклеотид 254 из-за шумового пика схожей высоты, расположенного рядом с большим наложением. Правда, он чуть ниже, поэтому можно понять, что в действительности здесь g. Это подтверждается и обратной последовательностью.

Иногда по хроматограмме одной цепи можно сделать выводы о замене N на значащую букву, поскольку пики интерпретируются при визуальном просмотре:

Пример
Рисунок. Замена без сравнения с другой цепью.

Были и другие исправления. К сожалению, в консенсунсной последовательности остались 2 N - эти нуклеотиды никак нельзя было определить.

Кроме того, нашёлся полиморфизм (рис. 6).

Пример 6
Рисунок 6. Здесь мы в прямой последовательности видим A, а в обратной - C. Это полиморфизм (в обеих цепях мы поставили r). Но надо заметить, в прямой последовательности зелёный пик, соотвествующий A, очень хорошо выражен, а в обратной синий пик C совсем на немного превышает зелёный пик A.

Дальше были удалены нечитаемые 5' и 3' участки, полученные файлы сохранены в формате ab1: 10_F_red.ab1, 10_R_red.ab1, и fasta: 10_F_red.fasta, 10_R_red.fasta.

Bыравнивание полученных последовательностей. Все строчные буквы, которыми мы заменили проблемные нуклеотиды, перевели в прописные, потому что в противном случае не работала команда needle, сохранили изменения в файлах: 10_F_red_bez.fasta, 10_R_red_bez.fasta. Далее с помощью команды needle 10_F_red_bez.fasta 10_R_red_bez.fasta -aformat3 fasta -out align.fasta получили оптимальное полное выравнивание align.fasta.

Потом выравнивание было открыто в Jalview. Из align.jvp мы скопировали консенсунсную последовательность cons.fasta и посмотрели, что по ней находит blastn. Оказалось, что больше всего это похоже на Modiolus modiolus voucher MT04964 cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial из двухстворчатого моллюска.

Modiolus modiolus

Рисунок 7. Modiolus modiolus (https://en.wikipedia.org/wiki/Modiolus_modiolus#/media/File:Modiolus_modiolus_001.jpg)

Примечание. Таким же образом полученное для исходных (необрезанных и неисправленных хроматограмм, переведённых в fasta) файлов выравнивание доступно здесь (на него, открытого в Jalview, можно подсматривать при сравнении хроматограмм, чтобы ничего не пропустить).

Задание 2

Примеры нечитаемых фрагментов хроматограмм из файлов kamp3_18SIII_F_F03_WSBS-Seq-1-08-15.ab1 WSWS2950_H3_F_G09_2013-06-11-22-39-58 приведены ниже (рис. 8, 9 соответственно).

Нечитаемое
Рисунок 8. Нечитаемый участок хроматограммы. Несколько плохо выраженных пиков накрыты размазанным пиком черного цвета, соответствующего G.
Нечитаемое
Рисунок 9. Нечитаемый участок хроматограммы. Очень сильное наложение 2 пиков одинаковой высоты не даёт прочитать нуклеотид.