Секвенирование по Сэнгеру
Чтение хроматограмм
Исходные файлы:
Полученные файлы:
- Отредактированные последовательности
В данном практикуме были обработаны 2 хроматограммы, являющиеся результатом секвенирования по Сэнгеру, и в конечном итоге получена консенсусная последовательность. Задания выполнялись при помощи программы Geneious Prime.
После загрузки в программу прямой и обратной последовательностей были определены длины нечитаемых участков, а именно:
- Для прямого прочтения нечитаемы "на глаз" оказались 19 нуклеотидов на 5' -конце и 3 нуклеотида на 3'-конце;
- Для обратного: также 19 нуклеотидов на 5' -конце и все читаемые на 3'-конце.
Оценка Geneious Prime с параметрами по умолчанию оказалась более радикальной, а именно:
- Для прямого прочтения нечитаемы 43 нуклеотида на 5' -конце и 5 на 3'-конце;
- Для обратного: 25 нуклеотидов на 5' -конце и 4 на 3'-конце.
На мой взгляд, хроматограммы вполне качественные. Очевидно снижение их качества в начальных и конечных участках, но средние участки характеризуются хорошо различимыми пиками. Для отображения качества хроматограмм был построен график (образец кода взят отсюда), иллюстрирующий вышесказанное. На графике видно, что качество прямого прочтения (показано синим) существенно ниже обратного (показано оранжевым).
import matplotlib.pyplot as plt from Bio import SeqIO import seaborn as sns import pandas as pd record_names = !ls ab1_files records = [] for record_name in record_names: records.append(SeqIO.read("ab1_files/" + record_name, "abi")) plt.rcParams["figure.figsize"] = (20, 5) ax = plt.plot(records[0].letter_annotations["phred_quality"]) bx = plt.plot(records[1].letter_annotations["phred_quality"])
Если не рассматривать начальные и конечные участки, то средний уровень шума у обеих хроматограмм очень низкий, примерно в 10 раз меньше высоты пиков.
Далее мною были взяты прямая последовательность и последовательность, обратно комплементарная обратной, по которым автоматически был построен референс. В соответствии с хроматограммами последовательности были вручную отредактированы, в результате чего была получена консенсусная последовательность. Ниже рассмотрены некоторые участки, где встречались сложности.
Небольшой пик G на 71 месте помешал программе определить C в прямой последовательности, но обратное прочтение, где в принципе отсутствует какой-либо шум в этом месте, разрешило это недоразумение: N заменяем на c. Также мы можем наблюдать сильно размазанные пики A на позициях 73-75 в прямой последовательности, из-за чего не совсем ясно, сколько A находится на этом участке, но и здесь помогает обратная последовательность: N заменяем на a.
На позиции 133 и в прямой , и в обратной последовательностях наблюдается значительный шум в виде пиков G, из чего делаю вывод, что это полиморфизм: заменяем A в прямой последовательности на r (A или G).
На позиции 258 в прямой последовательности наблюдаются 2 равных по высоте пика A и G, в ходе чего можно бы было предположить, что здесь наблюдается полиморфизм (R), но обратная последовательность подсказывает заменить N на a.
Наконец, на позиции 269 мы снова наблюдаем значительный шум в прямой последовательности. Заменяем N на c исходя из обратной последовательности.
Нечитаемый фрагмент хроматограммы
Хроматограмма взята из файла kamp3_18SIII_F_F03_WSBS-Seq-1-08-15.ab1 папки bad. На участке 506-540, как и на всей хроматограмме в целом, наблюдается множество пиков на каждой позиции, то есть уровень шума очень высок. Вероятно, при проведении секвенирования в образце одновременно было несколько отличных друг от друга последовательностей ДНК.