#pragma css /css/2017.css
<<BI>>

=== Обязательные задания ===
 1. Составить сводную таблицу значений в первых двух столбцах.
  * Мотивировка 
{{{#!wiki blue 
Вот чем вызвано это задание. Файлы формата feature_table должны содержать стандартизованную информацию. Теоретически. Но заполняют эти файлы ученые. В XIX веке типичный (медианный) ученый выглядел как серьёзный дядя с бородой, который полгода проверял свои данные прежде, чем издать ихъ в виде книги. 

Сейчас типичный ученый - молодой человек или девушка, подверженные всем увлечениям нашего века (что хорошо!). В перерыве между свиданиями и ловлей покемонов они стремятся поскорее доделать свою работу и сделать ее достоянием научного сообщества.

После того, как я увидел в файле строчку CDS without sequence я пришел в ужас `:(` CDS = coding sequence, по определению, ПОСЛЕДОВАТЕЛЬНОСТЬ нуклеотидов кодирующая белок!!!!!  Размышляя, как помочь моим неопытным студентам разобраться, я и придумал это задание `:)`
}}}    
  * Назовите лист features-classification
  * Результат должен выглядеть примерно [[https://kodomo.fbb.msu.ru/FBB/year_17/term1/pr13/fig1.xlsx| так]] или [[https://kodomo.fbb.msu.ru/FBB/year_17/term1/pr13/fig2.xlsx| так]]
  * Я использовал возможности
   * Удалить дупликаты из колонки
   * Транспонировать в специальной вставке
   * Счётеслимн
   * Чтобы пустое значение в строке тоже было учтено, нужно в соотв ячейке указать, что это пустой текст; признаком текста является символ '
  * Проверка: сумма чисел таблице должна быть равна числу строк в таблице (при выделении прямоугольника Excel снизу показывает сумму чисел)
  * Нас интересуют (i) гены белков; обычно, в колонке #features - CDS (ii) псевдогены - бывает поразному; (iii) гены РНК; обычно можно понять по таблице значений полей  

=== Дополнительные задания. Подсказки ===
 1.#3 Вам надо симулировать бросание монетки по числу генов, и повторить этот эксперимент 1000 раз. 

Способ 1. Запрограммировать своего любимого робота, чтобы он выполнил требуемое задание и записал результат. Но это - наше будущее. 

Способ 2. Написать скрипт на питоне, который выполнит нужные эксперименты и сообщит результаты. Вместо монетки можно использовать команды import random - загрузить библиотеку random и random.randomint(0,1) - выдает случайное целое число между нулем и единицей, т.е. 0 или 1. 

Способ 3. Первое испытание - в колонке 1. Используйте СЛУЧМЕЖДУ нулем ("решка") и единицей ("орел"). Функция выдает 0 или 1 с равной вероятностью. Распространите формулу вниз столько раз, сколько генов в вашем геноме.

В этом же столбце (например, в верхних ячейках) рассчитайте число орлов (СЧЁТЕСЛИ) и абсолютную величину отклонения числа орлов от ожидаемого.

Распространите все формулы в тысячу соседних столбцов (хотя бы в сто, если 1000 столбцов не помещается на странице). Посчитайте сколько раз отклонение больше или равно тому, которое вы обнаружили в своем геноме.

Сделайте вывод. 

'''Замечание''' В курсе теории вероятности или статистике вас научат как получить ответ, не бросая монетки. В Excel есть формула, которая сразу выдает нужный вам ответ - вероятность получить такое же или большее число отклонений от среднего, какое вы обнаружили. Если вы что-то знаете по теории вероятности, то можете ее найти и применить. Однако боюсь, что ваших знаний этих наук пока не хватит, поэтому не советую их использовать ...
{{{#!wiki comment
Мой мальчик! Тебе эту песню дарю.
Рассчитывай силы свои.
И, если сказать не умеешь "хрю-хрю", -
Визжи, не стесняясь: "И-и!"
                 С.Маршак
}}}
 

 1.#4 Поступите примерно так, как в Упражнении 5b из практ. 12. Советую сделать ячейку с параметром порог длины с число 100. Тогда изменение числа квазиоперонов при изменении порога получается изменением значения этого параметра. 

Число генов в квазиопероне легко посчитать с помощью СЧЁТЕСЛИ. И гистограмму недолго построить.

 1.#5  Отметить гены, пересекающиеся с предыдущим, можно в новой колонке с помощью ЕСЛИ. В следующей колонке можно вычислить сдвиг рамки и ориентацию пересекающихся генов друг относительно друга. Придумайте, как это сделать! 

Если сделали, то посчитать число пар пересекающихся генов можно с помощью СЧЁТЕСЛИ. 

 1.#6 В таблице с генами есть колонка product_accession. Зайдите на сайт Uniprot 
и выберите Retrieve/ID mapping. Этот сервис служит для перекодировки из одной системы идентификации в другую. Отфильтруйте идентификаторы кодирующих последовательностей (а не РНК - у РНК нет "продуктов"), скопируйте колонку идентификаторов и вставьте в окно Provide your identifiers. Выберите FROM: EMBL/GenBank/DDBJ CDS,  TO: Uniprot KB => Go.   

Получите таблицу, которую можно скачать в формате Excel. Однако сначала надо отредактировать колонки таблицы => Columns. Оставьте колонки Entry name,
добавьте Protein Existence (из колонки Miscellaneous), Length, Protein names.

Скачайте в формате Excel, скопируйте на страницу своего файла,  и сделайте сводную таблицу по полю "Protein exsistence". Прочитайте где-нибудь что значит каждая из категорий.   

Сведения о том, каким образом подтвеждено существование гена можно получить только из базы данных белков Uniprot. Как это сделать - см. в подсказках. 

Тот же финт с прекодировкой можно применить к столбцу GeneID, выьрав соответственно БД GeneID (Entrez Gene) в окошке From. (Enrez - так называется совокупность баз данных и сервисов на странице NCBI)