Занятие 10. Распознавание генов

    Цель данной работы — ознакомится с некоторыми методами распознования генов и их программными реализациями. Поиск влся в следующих предоставленных последовательностях: фрагмент генома фитоплазмы Acholeplasma laidlawii(прокариот) и фрагмент генома мармозетки Callithrix jacchus(эукариот).

    #1 Прокариоты

    ORF Finder
    Acholeplasma laidlawii 23240-24700: ORF Finder
    начало конец длина цепь описание
    23488 24252 765 + Альфа субединица ДНК направленной РНК полимеразы
    24258 24618 360 + 50S рибосомальный белок L17

    ORF Finder нашел 6ть открытых рамок считывания, в соответтвии с заданием были отобранны более длинные, длиннее 60 кодонов. После запуска BLAST с высокой степенью достоверности (мое предположение) можно предсказать функции кодируемых учасков: поиск вывел большое количество изоформ Альфа субединицы ДНК направленной РНК полимеразы в первом случае и 50S рибосомального белка L17 во втором. Всего таких находок более 10ти представленных в сохраненной выборке. Схожесть процента идентичности среди находок также говорит о том, что данной семество белков имеет примерно одинаковую длинну и определенный % консервативных позиций (~65-70% в первом случае ~75% во втором). В целом аннотирование считаю удачным. К сожалению использованию только такого набора программ не возможно, происходит некоторые упущения. Например запустив GeneMark
    мы обнаруживаем ,что первый в списке ген возможно начинается раньше чем начало предоставллого ман куска генома Acholeplasma laidlawii. И действительно, если посмотреть выборку BLAST мы увидем что у всех выравниваний Sbjct начинается с ~70 позиции, а Qwery с ~3. Тоесть Альфа субединица ДНК направленной РНК полимеразы в среднем на 65 нуклеотидов длиннее предсказаного ORF Finderом гена.

    Acholeplasma laidlawii 23240-24700: GeneMark
    начало конец длина цепь описание
    <23242 24252 1011 + Альфа субединица ДНК направленной РНК полимеразы
    24258 24618 360 + 50S рибосомальный белок L17

     

    В результате получилось что настоящим генном можно считать только второй, а границы первого надо уточнять, предварительно найдя более длинный фрагмент генома Acholeplasma laidlawii.

    #2 Эукариоты

    Файл CALJA_Lapshin.txt содержит в заголовке " strand='–' ". Тоесть это изначально комплиментарная цепь гена мормозетки. К сожалению метод с использованием GENSCAN и BlastX не дал удовлетворительных результатов — ниодин экзон не перекрылся. Я склонен винить в этом сложность работы с BLASTX. По результатам поиска сложно выбрать "экзон", поскольку они зачастую выравниваются с очень высоких процентом сходести. И постоянно пересекаются по белку. Сдругой стороны, GENSCAN должен был бы облегчить "муки выбора" предсказав положения "эзонов". Но в экзоны GENSCAN существенно не перекрывались ни с какими экзонами BLASTX.
    Callithrix jacchus 11080..22901: GENSCAN
    началоконеццепьтип
    13079 13190 начальный
    14635 14748 внутренний
    16105 16192 внутренний
    16924 16963 внутренний
    2033120507 внутренний
    2071420908 конечный

    BlastX

    Экзоны альтернативны. С genescan не пересекаются.
    gb|EAW81162.1|hCG1814203 | Homo sapiens | + BAC86659.1| UniGene info unnamed protein product | Homo sapiens | + dbj|
    кординаты по белку кординаты по ДНК кординаты по белку кординаты по ДНК
    1 19173 1 18948
    50 19322 18 18992
           
    69 20166 41 15432
    152 19927 131 15160

    Human Genome Browser (HGB)

     

    На представленной иллюстрации — пример кассетного альтернативного сплайсинга.