Обработка результатов секвенирования по Сэнгеру

В данном практикуме с помощью программы UGENE и дополнительных инструментов был произведен анализ предоставленных прочтений секвенатора и сборка контига.

1.Сборка последовательности по прочтениям

Исходные файлы: forward-read, reverse_read.

Результат: консенсус в формате FASTA

Coryphella verrucosa

Выравнивания:

  • Исходных последовательностей(не "почищенных") с консенсусом fasta-файл
  • Отредактированных последовательностей с референсом fasta-файл

Для выбора референсной последовательности прочтения сперва были mapped на forward-рид и отредактированы. Полученный на этом этапе консенсус был забластован с помощью blastn NCBI. В выдаче с 99+ Identity присуствовали гены cytochrome oxidase subunit 1 (COI) голожаберных моллюсков. В качестве конечного референса я взял вторую находку - MG421031.1 Coryphella verrucosa voucher BIOUG14670-C05 cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial.

Полиморфизм 325_F: исправлен по R-прочтению.

Полиморфизм 527_F: визуально G, также в R-риде.

Полиморфизм 572_F: решено оставить S (G or C).

Полиморфизм 618_F: визуально определяемый G.

Характеристика хроматограммы:

Синим - качество F, оранжевым - качество R. Видно, что на концах прочтений качество значительно снижается в обоих случаях, однако, в целом, F-прочтение имеет участки пониженного качества по сравнению с R.

Вывод: Хроматограммы обоих прочтений, на мой взгляд, довольно качественные и отображают закономерности, наблюдаемые при считывании капиллярного секвенирования.

2.Пример нечитаемой хроматограммы

В качестве примера был взят файл WS2943_SP6R.ab1 из директории /bad. Для рассмотрения выбран участок с 37 по 78 нуклеотид.

Данный участок начинается с пиков высокого сигнала, которые частично сливаются и пересекаются друг с другом, что нарушает алгоритм base-calling'а. После высоких пиков сигнал сильно падает (неизвестно, присутствует ли в данном участке сигнал от секвенируемой ДНК или же это просто шум). После относительного падения сигнала на хроматограмме видны огромные пики C-T-A.

Возможные проблемы: