Чтение последовательностей по Сэнгеру


Исходные данные - две хроматограммы, полученные с аомощью капиллярного секвенатора по Сангеру:

  • Прямая (F - forward) - Cs1_18SIII_F
  • Обратная (R - reversed) - Cs1_18SIII_R
  • С помощью программы Chromas эти хроматограммы были просмотрены и отредактированы.






    Характеристика хроматограммы прямой цепи:

  • Не читаются: 5'-1-30, 3'-540-834
  • Сила сигнала интенсивнее шума в среднем в 12 раз
  • Сила сигнала в среднем составляет 800-1000, однако есть пики,достигающие 1700-2000 и 300-500
  • Наибольшая сила сигнала составлет 2150, наименьшая - 380. Таким образом, различие в силе сигнала - 5,6 раз
  • Характеристика хроматограммы обратной цепи:

  • Не читаются: 5'-713-864, 3'-1-27
  • Сила сигнала интенсивнее шума в среднем в 7 раз
  • Сила сигнала в среднем составляет 800-1000, однако есть пики,достигающие 1700-2000 и 300-500
  • Наибольшая сила сигнала составлет 2200, наименьшая - 400. Таким образом, различие в силе сигнала - 5,5 раз
  • Для удобства редактирования последовательностей к обратной цепи был применен "reversed complement", потом были удалены нечитаемые участки и выровнены цепи. После данной процедуры длина прямой цепи стала равна 510, а обратной - 685. Участок перекрывания двух цепей, в котором проблемные нуклеотиды одной цепи можно было проанализировать по обратной цепи составил 390 нуклеотидов. Проблемные нуклеотиды этого региона представлены на рис. 1 и рис. 2.


    Проблемные нуклеотиды и полиморфизмы

    На рис. 1 представлен участок хроматограммы прямой цепи(сверху) и выровненный с ним учаток обратной цепи "reversed complement"(снизу). Позицию 329 прямой цепи автомат определил как N, посчитав сравнимыми по высооте пик тимина и размытый пик соседнего гуанина. В обратной цепи на данном месте мы видим пик тимина,однако очень близко к нему расположен пик цитозина, скорее всего являющийся шумом, так как рядом с ним находятся сравнимые с ним по высоте шумы. Таким образом, проанализировав обратную цепь, можно сделать вывод о томЮ что в прямой цепи в позиции 329 должен стоять тимин.

    Рис. 1. Проблемный нуклеотид 329-t ( сверху - прямая цепь, снизу - обратная "reversed complement")


    В другом случае сила сигнала нуклеотида в позиции 457 прямой цепи был настолько низким, что походил на шум. При обращении к обратной цепи в даннойпозиции был обнаружен явный пик гуанина (находящийся рядом пик цитозина расположен между равномерно идущими пиками, поэтому он считается шумом), вследствие чего было принято решение поставить на 457 позицию g.

    Рис. 2. Проблемный нуклеотид 457-g ( сверху - прямая цепь, снизу - обратная "reversed complement")


    Сложнее обстояла ситуация, когда нельзя было при обнаружении проблемного нуклеотида обратиться к другой цепи, так как из-за нечитабельности конечных участков они были удалены. Один из таких случаев пришелся на 427-й нуклеотид обратной цепи (reversed complement). Хроматограмма данного участка представлена на рис.3. В данной позиции явно видны два пика: T и C. Причем оба они являются сигналами, так как значительно превосходят общий уровень шума и располодены на одинаковом расстоянии от соседних пиков. Кроме того, их высота примерно одинакова. Исходя из всего вышеперечисленного можно заключить, что в данной позиции полиморфизм. Этой позиции был присвоен код y (IUPAC Ambiguity Codes).

    Рис. 3. Полиморфизм 427-y (обратная цепь "reversed complement")

    Еще несколько проблемных нуклеотидов было обнаружено в позициях 633-638 обратной цепи (reversed complement). На рис. 4 можно видеть размытие пиков A и C в этой области. Нельзя точно сказать, какие нуклеотиды являются правильными в этой области, однако можно предположить, что исходя из того, что сигналы, перекрывающиеся с размытыми пиками, идут равномерно, они и являются правильными.

    Рис. 4. Проблемный участок 633-638 (обратная цепь "reversed complement")

    Отредактированные последовательности были сохранены в формате .fasta и выровнены в JalView.

    Ссылки:

  • Jalview проект
  • Прямая цепь
  • Обратная цепь

  • Пример не читаемого фрагмента хроматограммы

    На рис. 5 представлен фрагемент нечитабельной хроматограммы. Несмотря на то, что автомат "прочитал" последовательность, истинной ее считать нельзя (заполненность квадртатиков очень маленькая, а значит вероятнотсь ошибки очен высокая). В данном примере много пиков сравнимой высоты, они расположены не на одинаковом расстоянии друг от друга, некоторые из пиков, в особенности 391-395, сильно размыты, сила шума сравнима с силой сигнала. Можно предположить, что в препарате находилось одновременно два фрагмента ДНК, либо праймер для секвенирования отжегся на два разных участка.

    Рис. 5. Фрагмент нечитаемой хроматограммы




    © Васильева Елена, 2015