В данном практикуме были обработанны две хроматограммы, полученные в результате секвенирования прямой и обратной последовательностей по Сэнгеру.
Сначала редактирование хроматограмм проводилось с помощью веб-платформы Pearl. Программа позволяет загрузить одновременно два файла с последовательностями, переворачивает и комплементарит одну из них и выдает результат их выравнивания. К сожалению, Pearl распознавал прямую последовательность за обратную, а обратную за прямую соответственно. Качество выравнивания от этого, очевидно, не изменилось, но учтем, что в итоговом файле из Pearl будет лежать обратная комплементарная последовательность.
Pearl обнаружил пять проблемных нуклеотидов (они представлены на картинках 1-5). Каждый из них однозначно определялся за счет второй хроматограммы. Во всех случаях кроме одного (второго), решение моё и программы совпадали. Все спорные случаи возникали из-за сильных шумовых сигналов на какой-то из хроматограмм. Например, на картинке 5 видно, что проблемный нуклеотид находится на концевом участке верхней последовательности, где точность определения нукледтидов меньше за счет сложности разделения больших последовательностей в геле.
Файл с итоговой последовательностью из Pearl в fasta-формате находится тут. В данном файле проблемные нуклеотиды обозначены строчными буквами. Файл с выравниванием из Pearl прямой и обратной последовательностей находится тут.
Далее я проанализировала те же последовательности в программе Chromas. В отличие от Pearl, Chromas показывает какое количество нуклеотидов он отбрасывает с 3' и 5' концов (данные представлены в таблице 1).
В целом по по хроматограммам шума мало и он распределен равномерно. Но бывают выделяющиеся шумовые пики (например, такой пик показан на рисунке 3). Длины 3' и 5' нечитаемых концов у двух хроматограм примерно одинаковы.
| 14_F 5'-конец (автоматическое определение) | 1 - 148 нуклеотиды |
|---|---|
| 14_F 3'-конец (автоматическое определение) | 677 - 716 нуклеотиды |
| 14_F 5'-конец (моё определение) | 1 - 148 нуклеотиды |
| 14_F 3'-конец (моё определение) | 677 - 716 нуклеотиды |
| 14_R 5'-конец (автоматическое определение) | 1 - 138 нуклеотиды |
| 14_R 3'-конец (автоматическое определение) | 688 - 724 нуклеотиды |
| 14_R 5'-конец (моё определение) | 1 - 137 нуклеотиды |
| 14_R 3'-конец (моё определение) | 688 - 724 нуклеотиды |
После редактирования и удаления концов я выровняла последовательности с помощью water. Результаты выравнивания представлены ниже.
#=======================================
#
# Aligned_sequences: 2
# 1: L47
# 2: L47
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 406
# Identity: 376/406 (92.6%)
# Similarity: 376/406 (92.6%)
# Gaps: 0/406 ( 0.0%)
# Score: 1820.0
#
#
#=======================================
L47 144 CACGCTTTCGTGATAATTTTTTTTATAGTTATACCGTTAATAATTGGTGG 193
||||||||||.||||||||||||||||.||||||||||||.|||||||||
L47 1 CACGCTTTCGNGATAATTTTTTTTATANTTATACCGTTAANAATTGGTGG 50
L47 194 TNTTGGTAACTGAATAGTTCCTTTATTGATTGGGGCCCCAGATATAAGGT 243
| ||||||||||||||||||||||||||||||||||||||.|||||||||
L47 51 TTTTGGTAACTGAATAGTTCCTTTATTGATTGGGGCCCCANATATAAGGT 100
L47 244 TTCCTCGNATAAATAATATGAGTTTTTGATTATTACCACCTTCATTTATT 293
||||||. ||||.||||||||||||||||||||||||||||||.||||||
L47 101 TTCCTCNTATAANTAATATGAGTTTTTGATTATTACCACCTTCNTTTATT 150
L47 294 TTATTATTATGTTCTAGNTTAATAGAAGGAGGTGCTGGTACAGGNTGAAC 343
||||||||||||||||| |||.||.||||||||||||||||||| |||||
L47 151 TTATTATTATGTTCTAGGTTANTANAAGGAGGTGCTGGTACAGGTTGAAC 200
L47 344 TGTATATCCTCCTCTATCAGGTCCTGTAGCTCACGGGGGAAGTTCAGTAG 393
||||||||||||||||||||||||||||.|||||||||||||||||.|||
L47 201 TGTATATCCTCCTCTATCAGGTCCTGTANCTCACGGGGGAAGTTCANTAG 250
L47 394 ATTTAGCTATTTTTTCCCTTCATTTAGCTGGTATATCTTCTCTATTAGGA 443
||||||||||||||||||||||||||.||||||.|||||||||||.||||
L47 251 ATTTAGCTATTTTTTCCCTTCATTTANCTGGTANATCTTCTCTATNAGGA 300
L47 444 GCTATTANTTTNATTANTACTATTTTTAATATACGGTCTAGAGCTATAAC 493
||||||| ||| |||| |||||||||||||||||||||||.|||||||||
L47 301 GCTATTAATTTTATTACTACTATTTTTAATATACGGTCTANAGCTATAAC 350
L47 494 AATAGAACGATTGAGTTTGTTCGTATGATCCATTTTAGTGACAGTATTCT 543
||||.|...|||||.|||||||.||||||||||||||.||||||||||||
L47 351 AATANANNNATTGANTTTGTTCNTATGATCCATTTTANTGACAGTATTCT 400
L47 544 TACTNT 549
|||| |
L47 401 TACTAT 406
Далее в Chromas я проанализировала позиции, которые хотя бы в одной из хроматограмм не определись. В данном случае из выравнивания видно, что все проблемные нуклеотиды хорошо распознаются хотя бы в одной из последовательностей. На рисунках 7, 8 представлены примеры таких проблемных нуклеотидов.
Итоговый файл с последовательностью из Chromas в можно найти тут. Тут проблемные нуклеотиды так же обозначены строчными буквами.
Далее я выровняла последовательность из Pearl и последовательность из Chromas с помощью water. Перед этим перевернула и откомплементарила последовательность из Pearl (forward последовательность лежит тут). Само выравнивание можно найти тут.
Итог: консенсусная последовательность с проблемными нуклеотидами в нижнем регистре, консенсусная последовательность в fasta-формате.
В качестве нечитаемого участка возьмем начало 5'-конца изучаемой выше хроматограммы 14_F. Видно, что сигналы накладываются друг на друга. Пики растянуты на нескольно нуклеотидов. Из-за этого невозможно понять какой из сигналов преобладает и соответственно нельзя определить нуклеотид.