Исходные файлы: Forward Read , Reverse Read
Последовательность действий для получения итоговых выравниваний:
1. Определяем нечитаемые участки хроматограмм.
Нечитаемые участки в F - 5'-1...26- 3', 5'- 378...381- 3'
Нечитаемые участки в R - 3'-1...35- 5', 3'-387- 5'
2. В начале делаем выравнивание, где используем прямую цепочку как референсную последовательность,
а обратную как прочтение выравниваемое по ней. Так получаем промежуточный контиг. Затем повторяем выравнивание с использованием
промежуточного контига как референсной последовательности, а в прочтении ставим прямую обратную цепочку.
Так получаем референсную последовательность.
3. Анализируем сопоставление хроматограмм из последнего выравнивания и по максимуму распознаем неопознанные нуклеотиды в референсной последовательности.
Так получаем консенсусную последовательность.
4. После этого по консенсусной последовательности исправляем прямую и обратную цепочки и добавляем к ним нечитаемые концы.
Таким образом, получаем прямую, обратную и референсную последовательности без удаления концов. (исправления показаны маленькими буквами)
На позициях 2 и 39 возможны полиморфизмы. Нуклеотиды на этих позициях не удалось однозначно распознать ни программно, ни визуально. По результатам распознавания, на 2-ой позиции: B (С or G or T), на 39-ой: V (A or С or G)
Нуклеотиды на 375, 378 и 384 позициях также, возможно, являются полиморфизмами. Их номера не попали на изображения, т.к. в начале они не попали на нумерацию референсной последовательности. По результатам распознавания на всех спорных позициях: Y (С or T)
На позициях 57,58, 74, 258, 259, 293, 297 программно верно разобраны первоначально нечитаемые нуклеотиды. Визуально они тоже легко различимы.
По результатам разбора, на позициях: 57 - A, 58 - G, 74 - A, 258 - G, 259 - A, 293 - C, 297 - G.