Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2020

Практикум 6. Секвенирование по Сэнгеру

1. Получить последовательность ДНК на основании данных, полученных из капиллярного секвенатора. Составить отчёт о проблемах при чтении хроматограмм

На выходе из капиллярного секвенатора получается бинарный файл в формате .ab1 (.abi, .ab, .scf), в котором есть информация о флуоресценции каждой из четырёх нуклеотидных меток по ходу продвижения электрофореза, автоматически определённая последовательность, а также качество определения каждого отдельного нуклеотида. Автоматическая аннотация нуклеотидов, основанная на данных флуоресценции, называется base calling; в ходе этого процесса могут происходить ошибки, — именно поэтому перед экспортом итоговой последовательности хроматограмму необходимо проанализировать самому.

Глобальная задача, которую вы будете выполнять в ходе практикума, — это качественная расшифровка результатов секвенирования по Сэнгеру. Для этого надо будет обработать две хроматограммы (с прямой и обратной цепочек), собрать из них контиг и разрешить все неоднозначности в хроматограммах.

Вам дано два файла в формате .ab1, соответствующие прочтению прямой и обратной цепочки секвенируемой ДНК. См. список данных, файлы лежат на диске P в соответствующей директории: P:\y19\term3\block2\ab1_files\good.

Для работы с хроматограммами вы можете использовать любые доступные вам методы (не забудьте описать в отчёте, что и при помощи чего вы делали). Мы предлагаем использовать UGENE, однако помимо него есть куча как бесплатных (Pearl, Chromas (Lite)), так и платных (Geneious, CodonCode Aligner) программ. При проблемах с использованием одной программы воспользуйтесь другой.

Отчет должен быть представлен на странице вашего сайта.

Термины

Проблемный нуклеотид — такой нуклеотид, по которому вы приняли решение, отличное от предложенного программой, или вы согласились с программой, но необходимо было проанализировать хроматограммы и принять решение. Проблемные нуклеотиды в последовательности выделяйте строчными буквами.

Полиморфизм — это нуклеотид, про который вы решили, что в секвенируемой ДНК встречаются два (или более) варианта. Полиморфизмы обозначайте кодами вырожденных нуклеотидов (ambiguity codes), см. https://droog.gs.washington.edu/parc/images/iupac.html или таблицу 1 из оригинальной статьи.

Что должно быть в отчёте:

Примерный порядок действий:

2. Приведите пример нечитаемого фрагмента хроматограммы

Фрагмент можно взять из любого файла. Совсем плохие хроматограммы см. в директории bad там же на диске P.

Постарайтесь выбрать фрагмент, про который можно что-то написать.

В отчете — картинка и объяснение.

3*. Скрипт для автоматической обработки двух хроматограмм

На любом языке программирования (в т.ч. bash) и с использованием любых пакетов напишите скрипт, который на вход получает две хроматограммы, а на выход даёт консенсусную последовательность (то есть по сути делает то, что вы делали руками в задании 1). В отчёте дайте ссылку на файл со скриптом, опишите все зависимости (какие пакеты или сторонние программы используются в ходе работы скрипта?) и приведите пример нескольких тестов работы программы (используйте хроматограммы из директории, прописанной в задании 1). Также опишите примерную логику работы вашего скрипта (что именно он делает и как?).

Некоторые подсказки:

2020/3/pr6 (последним исправлял пользователь s.isaev 2021-10-18 15:18:14)