Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2015

Практикум 11. Советы и рекомендации

1. Получение предсказаний генов с помощью Prodigal

  1. Установите программу Prodigal на свой компьютер (скачайте последнюю версию с официального сайта http://prodigal.ornl.gov/ - есть версии для Linux, Windows и MacOS).

  2. Скачайте с помощью EMBOSS последовательность выданной вам плазмиды в форматах gff и fasta (пользуйтесь seqret с соответствующими опциями; вам обязательно потребуется, чтобы в итоговом файле были сохранены особенности, англ. features; в качестве входной базы данных лучше использовать embl).

  3. Запустите программу с параметром -h, чтобы посмотреть доступные опции; запустите программу с выбранными опциями. Советую выбрать минималистичный формат sco для записи результата, он удобнее для дальнейшей работы.

2. Сравнение предсказаний генов в базе данных и программой Prodigal

Сравнение результатов работы программы Prodigal и аннотации в GenBank рекомендую делать с помощью скрипта на Python, но если это затруднительно, могу предложить следующий "костыль" с использованием Excel.

  1. Импортируйте таблицу особенностей аннотации в базе данных в Excel.
    • Откройте файл с таблицей особенностей (в формате gff), скачанный с помощью EMBOSS, с помощью текстового редактора.

    • Удалите "шапку" сверху и последовательность белка (после строки ##FASTA).

    • Сохраните файл в файл с новым именем.
    • Импортируйте файл в Excel и скопируйте его содержимое в отдельный лист отчетной книги Excel (с названием, например, gff)

    • Выставьте фильтр по типу особенности "CDS" в соответствующей колонке.
    • Скопируйте на отдельный лист (с названием, например, comparison) только записи, соответствующие CDS, и оставьте только столбцы, соответствующие началу, концу и направлению гена.

  2. Импортируйте предсказание Prodigal

    • Импортируйте файл с предсказанием Prodigal (в формате sco) в Excel и скопируйте его содержимое в отдельный лист отчетной книги Excel (с названием, например, prodigal). При импорте используйте в качестве разделителя символ нижнего подчеркивания "_".

    • Скопируйте на лист comparison только столбцы, соответствующие началу, концу и направлению гена.

  3. (самое неприятное в Excel) Для поиска значений в таблице можете пользоваться функцией ВПР (в английской версии - VLOOKUP). Ее синтаксис:

    • ВПР(искомая ячейка; таблица где искать; столбец; ЛОЖЬ)

    • Обратите внимание: поиск значений из искомой ячейки будет осуществляться В ПЕРВОМ столбце заданной таблицы, а столбец позволяет вам выдать в результате выполнения функции столбец из этой таблицы с заданным номером.

    • Для подсчета числа значений можете пользоваться функциями ЕСЛИ (IF) и И (AND), а также СЧЁТЕСЛИ (COUNTIF).

    • Придется сделать несколько вспомогательных столбцов. Логика примерно следующая (для начал генов):
      • колонка 1: для каждого начала в аннотации Genbank получить информацию о том, находится ли такое начало в аннотации Prodigal и вывести его;
      • колонка 2: для каждого начала в аннотации Genbank, если оно находится в Prodigal, вывести конец из аннотации Prodigal;
      • колонка 3: сравнить, совпадает ли конец из аннотации Prodigal в колонке 2 и конец в аннотации Genbank;
      • (подсчет чисел из колонки 3 = число совпадающих полностью генов);

      • колонка 4: действительно ли это начало является стартом трансляции белка (учет направления);
      • (умный подсчет чисел из колонки 4 = число совпадающих только с 5'-конца генов;