Занятие 4. Матрицы весов аминокислотных замен

 
     

 

  1. Изучение матрицы BLOSUM62

    Скопируйте в свою рабочую директорию файл с матрицей. Импортируйте матрицу в Excel. Расположите строки и столбцы по группам:
    • A,G,S,T
    • N,D,E,Q
    • K,R,H
    • M,I,L,V
    • F,Y,W
    • P
    • C
    Строки, относящиеся к разным группам, выделите разными цветами. Результат сохраните в файле blosum62.xls.

    Выберите две группы, состоящие более чем из 1 аминокислоты каждая. Вычислите средний вес замен между разными аминокислотами внутри первой группы, внутри второй группы и между группами. В файле отчета приведите полученные значения и опишите наблюдаемые закономерности.
     

  2. Вычисление весов замен аминокислот на основе одного "блока"

    На сайте базы данных BLOCKS (http://blocks.fhcrc.org/) проведите поиск блоков, относящихся к вашему белку. Поиск ведите на странице "Get Blocks by keyword" по SwissProt AC вашего белка (если по первому AC ничего не находится, пробуйте второй, третий, ...). Выбирайте блок, чье название начинается на "IPB".

    Сохраните найденный блок (строки, начиная с "ID" и по "//") в файле block.dat. Если найдено несколько блоков, то выберите самый "широкий".

    С помощью программы pairs_count.exe получите таблицу количеств различных пар аминокислот в данном блоке. Программа находится в директории P:\y05\Term2\Practices\Practice4. Программа ожидает в качестве параметров название файла с блоком и максимальный процент идентичности, используемый при кластеризации. В качестве процента идентичности используйте 62. По умолчанию программа выводит количество пар на экран. Чтобы сохранить результат в файл, используйте перенаправление в файл:

    pairs_count.exe block.dat 62 > block_pairs.txt
    
    На основе полученных количеств пар рассчитайте веса аминокислотных замен для трех пар аминокислот. Для этого выберите три аминокислоты. Первая пара аминокислот — это первая из выбранных аминокислот сама с собой, а две другие пары — первая со второй и первая с третьей. Сравните рассчитанные значения с соответствующими из матрицы blosum62. Результаты вычислений и сравнения занесите в файл отчета.
     
  3. (*) Вычисление весов замен аминокислот на основе большой выборки

    Аналогичным образом вычислите веса аминокислотных замен для трех пар аминокислот на основе 200 блоков из банка данных BLOCKS. Данные с блоками находятся в файле P:\y05\Term2\Practices\Practice4\blocks_200.dat
    Частоты аминокислотных остатков берите здесь.

    Сравните рассчитанные значения с соответствующими из матрицы blosum62 и с рассчитанными в предыдущем пункте. Результаты вычислений и сравнения занесите в файл отчета.


Для информации

Все матрицы серии BLOSUM доступны по анонимному FTP на сервере NCBI:

  ftp.ncbi.nih.gov/repository/blocks/unix/blosum/BLOSUM
     
В этой директории файлы вида "blosumnn.blast.new" содержат матрицы в наиболее "читаемом" формате. Файлы с расширением "iij" содержат треугольные матрицы, остальные файлы — матрицы в форматах, требуемых разными программами, а также разные промежуточные стадии создания матриц (например. файлы blosum*.sij содержат матрицы из двоичных логарифмов условных вероятностей пар, то есть до умножения на 2 и округления до целого).

Оригинальную статью 1992 года, посвященную описанию серии BLOSUM, можно скачать — она свободно рапространяется: http://www.pnas.org/cgi/reprint/89/22/10915