Учебный сайт
Владимира Ноздрина

Я записал свои ошибки
В монголо-крабовый букварь.
Кобыла и трупоглазые жабы, "Газманов"

Секвенирование по Сэнгеру

Задание 1. Получение консенсусной последовательности

 Полученную в ходе этого задания консенсусную последовательность можно скачать по ссылке.
 Для начала исходные файлы(, ) были импортированы в Chromas. Как мне показалось, на хроматограмме с прямым прочтением шума не очень много, причём почти весь шум создаётся гуанином, а на хроматограмме с обратным прочтением шума больше, при этом нет явного преобладания какого-то из нуклеотидов. Шум равномерный на протяжении всей хроматограммы.
 Нечитаемые начальные и конечные фрагменты программа определила сама, и я с ней согласен: Это первые 28 и последние 42 нуклеотида для прямого прочтения, и первые 21 и последние 24 нуклеотида у обратного прочтения(после реверса).Обрезанные последовательности были экспортированы в fasta-формате и выравнены программой needle. Скачать выравнивание можно по ссылке. Далее это выравнивание я поместил в JalView и оттуда уже редактировал.
 В основном все проблемные нуклеотиды и полиморфизмы решались просто, но одно место было чуть более интересно. Оно приведено на Рисунке 1. Ещё несколько проблемных нуклеотиды и полиморфизмов приведено на Рисунках 2, 3, 4. На всех рисунках прямое прочтение слева, а обратное справа. Также на рисунках видны координаты этих нуклеотидов, поэтому я не буду писать про них на рисунках.
Рисунок 1. Это тот самый гэп в выравнивании. Здесь на прямом прочтении сигнал от гуанина слабее, чем шумовой сигнал от аденина, а на обратном прочтении возник лишний шумовой пик, который программой распознался как неопознанный нуклеотид. Моим решением было на прямом прочтении поставить гуанин на том основании, что он есть на обратном, а на обратном прочтении просто удалить этот неопознанный нуклеотид.
Рисунок 2. Проблемный нуклеотид. Сигнал от аденина больше, чем от гуанина, поэтому это скорее всего аденин. На обратном прочтении там чистый аденин.
Рисунок 3. Проблемный нуклеотид. Это тимин, но на прямом прочтении мешает шумовой гунин, а на обратном цитозин. Если бы это был полиморфизм, цвет шума был бы одинаковый.
Рисунок 4. Проблемный нуклеотид. На прямом прочтении возник высокий пик гуанина, но на обратном там чистый аденин.
Рисунок 5. Два проблемных нуклеотида на одном скриншоте. На первом опять мешает шумовой гуанин на прямом прочтении, а на втором шум тиминовый. Очевидно, первый проблемный нуклеотид это цитозин, а второй – аденин.
 После фикса ещё нескольких проблемных нуклеотидов было получено исправленное выравнивание, из которого и был извлечён консенсус.

Задание 2. Нечитаемый участок хроматограммы.

Я взял файл /bad/kamp3_18SIII_R_F04_WSBS-Seq-1-08-15.ab1 (я его отреверсил, потому что смотрел ещё на прямое прочтение). Увидеть один из множества нечитаемых участков можно на Рисунке 6.
Рисунок 6. Нечитаемый участок. В самом центре программа неправильно посчитала число гуанинов там (по-моему, их там должно быть по три, а не по два), а чуть правее два пика(цитозиновый и тиминовый) ровно в одном и том же месте, что мне очень понравилось, почему я и выбрал этот фрагмент.