Практикум 6. Чтение последовательностей по Сэнгеру.

Задание 1.

Ссылки на исходные файлы: Tih_18SIII_F_A05_WSBS-Seq-1-08-15.ab1 и Tih_18SIII_R_A06_WSBS-Seq-1-08-15.ab1 Примечание: в последовательности A06 для удобства уже выполнена команда reverse+complement.

Пункт 1. Результаты

1. Последовательность в фаста формате
Примечание: окончательная последовательность строилась из предположения, что если в одном из прочтений нуклеотид не определен, но определен в другом, то это определение можно считать достоверным. Поскольку в моей хроматограмме не встретилось ни одного нуклеотида, определенного по-разному в прямом и обратном прочтении, задача свелась к примитивному сопоствлению двух последовательностей.
2. Выравнивание прямого и обратного прочтений Выравнивание исходных прочтений ДО редактирования. Из-за отличного качества прочтения А05 не понадобилось осуществлять более сложного редактирования чем то, что описано в примечании выше (замена N на букву). Редактирование в основном опиралось на сопоставление двух последовательностей и на поиск проблемного нуклеотида в последовательности, комплементарной той, где был обнаружен проблемный нуклеотид, а не на визуальный анализ хроматограммы вокруг проблемного нуклеотида, так как в данном случае, как мне показалось, такой способ дает лучший результат. Поэтому выравнивание двух отредактированных последовательностей представляло бы собой 100% совпадение. Я сочла, что такое выравнивание можно не приводить.

Пункт 2. Общая характеристика хроматограммы

Длина концевых нечитаемых участков определяется автоматически. Для последовательности A05 длина нечитаемого участка с 5' конца - 30 нуклеотидов, с 3' конца - 141 нуклеотид. Для А06: с 5' конца - 146 нуклеотидов, с 3' конца - 119 нуклеотидов.
В обоих прочтениях сигнал довольно равномерный, то есть высота пиков колеблется в очень маленьких пределах. В последовательности А05 шум сильнее у 3' конца, в последовательности А06 - у 5' конца. В теории, уровень шума не должен зависеть от последовательности. Наверное, это совпадение.
Отношение высоты шума к высоте пиков для A05 примерно 1/5-1/7, для А06 на большинстве длины 1/3, и этот показатель лучше (1/4-1/6) только в небольших диапозонах (285-295, 337-345 нуклеотиды).
В целом оба прочтения довольно разборчивые, при этом A05 заметно лучше А06 из-за более низкого уровня шума

Пункт 3. Проблемные нуклеотиды

На всех рисунках сверху представлена последовательность A06, снизу - A05.
Рисунок 1.
В последовательности А06 нуклеотид 149 не определен. Пик размазан на 149 и 150 нуклеотиды. При этом в последовательности А05 оба нуклеотида определены четко: два тимина.


Рисунок 2.
В последовательности А06 нуклеотид 260 не определен. Вместо одного высокого пика на его месте три пика, не превыщающих уровень шума. На прочтении последовательности А05 этому нуклеотиду соответствует четкий пик синего цвета. Следовательно, нуклеотид 260 в последовательности А06 - цитозин. Аналогичная ситуация на этом же рисунке с нуклеотидом 224 последовательности А05, которому соответствует одновременно два пика. По последовательности А06 этот нуклеотид определяется как аденин.



Рисунок 3.
В последовательности А05 нуклеотид 333 не определен. Ему соответствуют два пика: зеленый и черный. Из прочтения последовательности А06 видно, что этот нуклеотид - аденин.



Задание 2. Очень плохая хроматограмма

На рисунке 1 показан фрагмент очень плохой хроматограммы. В первую очередь, пики накладываются и перекрываются. Можно заметить, что на этом снимке хроматограмма максимально растянута в продольном направлении. При этом пики очень узкие по сравнению с легко читаемыми хроматограммами. Если бы эти пики соответствовали нуклеотидам, это означало бы, что нуклеотиды во-первых проходят через лазер быстрее обычного, а во-вторых разница между их скоростями очень мала. Такое может случиться, если среда внутри капилляра подготовлена неправильно. Более вероятно, однако, что эти пики - просто шум, не соответствующий прохождению нуклеотидов через лазер.