Нуклеотидный blast.


Задание 1. Таксономия и функция данной нуклеотидной последовательности.

Отчет приведен в предыдущем практикуме (7).
Задание 2. Сравнение списков находок, полученных 3-я разными алгоритмами blast: blastn, megablast и discontiguous megablast.

Три алгоритма blast - blastn, megablast и discontiguous megablast - оптимизированы для поиска в разных условиях. Blastn ищет все последовательности, хоть в чём-то схожие с данной, megablast - очень похожие последовательности, discontiguous megablast - похожие, но не очень сильно.

Последовательность нужно было взять из практикума 7. (Скачать данную последовательность в формате fasta) и запустить 3 разных алгоритма blast (blastn, megablast, discontiguous megablast) и сравнить результаты их работы.

Для каждого запуска были установлены следующие параметры:

  • Было решено ограничить находки тем же родом, что и лучшая находка в Задании 1, а именно Arabidopsis
  • Количество выводимых находок я ограничила 1000
  • Все остальные параметры я оставила неизменными (по умолчанию) для всех 3 запусков.


  • Таблица 1. Результаты поиска
    Параметр blastn megablast discontiguous megablast
    Число находок 30 4 25
    E-value худшей находки 6.6 3e-30 4.3
    Query cover худшей находки 3% 77% 3%
    Процент сходства для худшей находки 92% 66% 92%



    Находки алгоритма blastn.


    Находки алгоритма megablast.


    Находки алгоритма discontiguous megablast.


    Заключение:
  • megablast нашел только 4 наиболее достоверные находки. Этот алгоритм позволяет найти последовательности, обладающие очень высоким сходством с исходной. (Можно использовать для поиска очень близких гомологов). Также он ищет сходные последовательности по паттерну в 28 нуклеотидов, т. е. выше вероятность попадания замены, чем в паттерне длиной 11 нуклеотидов.

  • discontiguous megablast нашел на 21 находку больше. Этот алгоритм ищет последовательности, возможно являющиеся близкими гомологами, сходство у таких последовательностей незначительное.

  • blastn нашёл ещё на 5 находок больше. Не смотря на то, что оба алгоритма (discontiguous megablast и blastn) производят поиск по паттерну длиной 11 нуклеотидов, результаты оказались разными, видимо, потому что blastn ищет любые сходные участки, а discontiguous megablast - дивергированные последовательности. Blastn Используется для поиска всех сходных последовательностей.



  • Задание 3 (3.2). Проверка наличия гомологов 5 белков в геноме организма.

    В данном задании нужно было проверить наличие гомологов 5 белков в организме Amoboaphelidium (файл со сборкой герома).

    Для этого:
  • нужно было провести локальный blast аминокислотной последовательности каждого из белков против трансляции последовательности генома Amoboaphelidium в 6 рамках считывания - алгоритм tblastn.

  • Требовалось отобрать 5 белков.

  • последовательности всех белков собрать в один fasta-файл, так как это позволяет ускорить процесс работы алгоритма tblastn: all.fasta

  • создать банк данных из последовательности генома организма Amoboaphelidium. (Команда: makeblastdb -in X5.fasta -dbtype nucl)

  • запустить tblastn. (Команда: tblastn -query 5.fasta -db X5.fasta -out 5.out -outfmt 7)

  • Название белка Имя записи в UniProt Идентификатор и ссылка на страницу в UniProt Функция
    DNA-directed RNA polymerase II subunit RPB1 RPB1_HUMAN P24928 управляемая ДНК субъединица RPB1 РНК-полимеразы II ответственна за синтез РНК у эукариот.
    Histone H4 H4_HUMAN P62805 ядерный белок, участвует в упаковке нитей ДНК в ядре и в эпигенетической регуляции таких ядерных процессов, как транскрипция, репликация и репарация, формирует нуклеосому.
    DNA polymerase alpha catalytic subunit DPOLA_HUMAN P09884 отвечает за инициацию репликации ДНК в ориджинах репликации ( как на опережающей, так и на отстающей цепях) и в процессе синтеза фрагментов Оказаки на отстающей цепи.
    Heat shock protein 105 kDa HS105_HUMAN Q92598 предотвращает скопление в клетке денатурированных белков в результате сильного стресса, ингибирует HSPA8/HSC70 АТФ-азы и активность шаперонов.
    Transcription factor IIIA TF3A_HUMAN Q92664 нужен для правильной трансткрипции генов 5S РНК генов с использованием РНК-полимеразой III, после чего связывает транскрибированные 5S РНК гены. Этот белок также может инициировать транскрипцию рибосомальных 5S РНК генов и поддерживать стабильность транскрипции других генов.


    Последовательности всех белков.

    Файл 5.out, полученный после работы алгоритма tblastn.

    Таблица c результаты поиска 5 белков в геноме Amoboaphelidium с помощью tblastn.
    Белок Число находок (хорошие/все) Запись с лучшей находкой Процент идентичности лучшей находки E-value лучшей находки Процент покрытия входной последовательности (Query cover) лучшей находкой
    RPB1_HUMAN 21/21 scaffold-157 53.04% 0.0 70.9%
    H4_HUMAN 7/9 unplaced-368 93.90% 1e-48 79.6%
    DPOLA_HUMAN 2/5 scaffold-22 25.87% 3e-18 94.6%
    HS105_HUMAN 16/23 unplaced-959 41.55% 3e-143 85.6%
    TF3A_HUMAN 57/113 scaffold-110 42.17% 2e-15 22.7%



    СПАСИБО ЗА ПРОСМОТР


    © Мария Медведева