Анализ результатов секвенирования по Сэнгеру

Гуков, 201

Задание 1

Результаты работы:

Для начала оценим хроматограммы для прямой и обратной последовательностей метрикой оценки качества сигнала - Q, которая может быть расчитана по формуле: $$Q = {-10}\cdot\log_{10}{p}$$ Где Q - качество сигнала для данной вероятности p.

Удобно построить графики зависимостей качества сигнала от позиции конкретного нуклеотида. Данные для построения графиков уже находятся в бинарных файлах расширения ab1. В коде ниже файлы 44_F.ab1 и 44_R.ab1 хранятся в списке records. Далее создаётся pandas.DataFrame с именем data_quality, в котором первый столбец - имя последовательности из 44_*.ab1, второй столбец - рассматриваемая позиция, а третий столбец - мера качества для данной позиции. Данные в data_quality находятся в формате long-form data для удобной работы с модулем визуализации данных seaborn.

По графику можно сказать, что хроматограммы достаточно качественные (более точная оценка ниже), видны начальные и конечные нечитаемые участки.

Можно более точно описать "насколько графики качественные", используя возможности pandas, к примеру метод describe():

Среднее значение Q будет обозначаться как Q_mean.

Q_mean прямой цепи равняется 32.5, а Q_mean обратной цепи - 29.04. Данные значения являются показателями того, что хроматограммы действительно хорошие.

Таже с помощью библиотеки seaborn можно построить box plot ("ящик с усами") и визуально оценить как себя ведёт мера качества взависимости от хроматограммы. В принципе, график только подтверждает качественность хроматограмм, потому что значения равные Q = 1 (очень высокая вероятность ошибки в данной позиции) даже не входят в сам box plot, а являются выбросами.

Попробуем сделать интересенее и посмотрим график зависимости вероятности ошибки от позиции потенциальной ошибки. Для расчета вероятности ошибки воспользуемся формулой качества сигнала: $$Q = {-10}\cdot\log_{10}{p}$$ Так как Q известно изначально, можно выразить p: $$p = {10}^{\frac{Q}{-10}}$$

В дальнейшей работе будем придерживаться идеи, что если вероятность ошибки больше 20%, то лучше проверить это по хроматограмме.

В основном позиции с высокой вероятностью ошибки находятся либо в начале, либо в конце. Это, так называемые, начальный и конечный нечитаемые учатстики.

Ниже представлены таблицы, в которую помещены позиции, вероятность ошибки в которых больше, чем 20%. Первая таблица - это таблица с матричной цепью (forward). Вторая таблица описывает не хорошие позиции обратной (reverse) цепи. Данные таблицы были сделаны для того, чтобы был ориентир на те позиции, которые требуют к себе повышенное внимание.

По первой таблице, можно сразу же предположить, что 5'-1:20-3' - это начальный нечитаемый участок, а 5'-675:719-3' - это конечный нечитаемый участок, однако утверждения необходимо проверить непосредственно на хроматограмме.

Точно также как и о матричной цепи, о комплиментарной можно сказать, что начальным нечитаемым участком является последовательность 5'-1:21-3', а конечным - 5'-717-718-3'. Напоминаю, что эти значения - всего лишь ориентир. Необходимо проверять значения по хроматограммам.

Непосредственно посмотрев на хроматограмы были приянты решения? которые совпадают с решением программы Chromas:

Переменные, которые объявлены ниже не содержат начальных и конечных нечитаемых участков.

Я не знаю как решить проблему отображения, поэтому взял последовательности из переменных seqF и seqRrevcov и пошёл делать выравнивание в Jalview. В Jalview было пройзведено выравнивание программой Muscle. Далее, с использованием Chromas, непосредственно в Jalview производился анализ последовательностей для установления консенсусной цепи.

Примеры ошибок, с которыми произошла встреча во время просмотра выравнивания и хроматограмм:

Сверху 44_F, снизу 44_R_rev_com

картинки

картинки

картинки

картинки

Задание 2

плохая картиночка

Скрин был сделан из хроматограммы NN_G10.ab1. Вероятно, там несколько молекул ДНК, поэтому много пиков накладываются друг на друга в одной и той же позиции.