Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Конструирование геномных библиотек. 4 глава




В наиболее серьезных программах кроме этих двух слоев нейронов используется еще так называемый спрятанный слой. Когда есть третий слой нейронов, нейронная сеть способна проводить дополнительные корреляции среди исходных данных и делать неожиданные положительные выводы. Нейронную сеть с третьим слоем гораздо сложнее тренировать, но зато считается, что она дает наиболее качественные предсказания.

Ценность нейронной сети зависит от того, насколько хорошо программист написал программу, и от качественности набора экспериментальных данных на стадии тренировки.

Есть достаточно много программ. Разрабатывались ониразличными группами (компаниями людей), которые, как правило, занимались анализом данных конкретного организма и писали программу специально под этот организм. Во многих случаях это была??? Одна из первых программ – GeneMark – первоначально была написана под прокариотические последовательности, где большого смысла в ней нет. Но она умудрялась показывать ошибки в базе данных: где, например, присутствуют сдвиги рамки считывания, а где просто ошибки в аннотации. Когда в сиквенсе присутствовали ошибки, GeneMark достаточно четко детектировала, где рамка считывания может продолжиться, где она может начаться, несмотря на то, что соответствующей мутации реально не было. В этих целях эту программу первое время и использовали.

На прокариотах подобные программы просто отрабатывались, а затем их стали использовать сначала для простейших эукариот (достаточно успешно был применен тот же GeneMark к Caenorhabditis elegans, поскольку у него относительно компактные гены и кодирующей ДНК в геноме около 25%) и позже для более сложных геномов. Для последних создавались специальные программы (самые популярные перечислены на слайде). Такие программы могут различаться, поскольку иногда в них заложены различные принципы.

Помимо нейронных сетей есть еще один интересный алгоритм, который основан на так называемых спрятанных цепях Маркова (этот математический аппарат разработан советским математиком).

Если надо найти ген в геноме организма, принадлежащего хотя бы классу, в котором есть один законченный геном, практически любая из указанных программ достаточно надежно с задачей справится (с вероятностью порядка 90-95%, а это для эукариотического генома хорошо).

Если говорить дальше о той стадии, когда уже нашли кодирующие последовательности, то следующая фаза аннотации – это функциональная характеристика кодирующей последовательности. Следует учесть, что без экспериментальной проверки всем полученным компютерным сведениям грош цена. Но как первичная характеристика и как средство для выдвижения рабочих гипотез компьютерный анализ очень ценен и полезен. Поэтому далее мы подробнее рассмотрим, как сравнивать между собой кодирующие последовательности и как на основании таких сравнений можно делать предварительные функциональные характеристики геномной последовательности. Все это возможно только благодаря тому, что мы уже располагаем достаточно большим количеством информации о геномах, причем экспериментально охарактеризованных, и благодаря наличию баз данных, которые всю эту информацию хранят в удобной и доступной форме.

Самая первая база биологических данных и первые методы сравнения заложенных там данных появились в «младенческом» возрасте молекулярной биологии, когда никакой информации о геномах еще не было. Они были предложены Маргаритой Дайхофф (Margaret Dayhoff) в 1965 г. Это была белковая база данных PIR (P rotein I dentification R esource), поскольку на тот момент Фрэд Сэнгер только инсулин секвенировал (и относительно небольшое количество других белков после него было проанализировано). Таким образом, к созданию первой биологической базы данных число установленных аминокислотных последовательностей исчислялось несколькими десятками, а число известных нуклеотидных последовательностей равнялось нулю.

Когда появилось большее количество секвенированных белков, когда появились последовательности цитохромов из нескольких организмов и можно было начать сравнивать их, проанализировать изменения консервативности белков в ходе эволюции, Дайхофф предложила использовать метод чувствительного сравнения белковых последовательностей между собой. Он основан на использовании аминокислотных матриц замещения.

С тех пор прошло уже больше 40 лет, баз данных уже много. Сейчас без них невозможно в связи с тем, что количество информации измеряется уже терабайтами, а человеческий мозг оперировать такими объемами не в состоянии. В связи с таким лавинообразным ростом информации единственный способ доступа к ней – через посредничество компьютера.

Еще одна причина, по которой нельзя обойтись без баз данных, – это та, что уже лет 10 все ведущие научные журналы не принимают информацию о биологических последовательностях. Следовательно, единственный способ сделать эту информацию доступной для коллег – поместить ее в базу данных и дать в статье ссылку и код доступа к последовательности в этой базе. Последовательности в статьях приводятся очень редко, только когда они сравниваются между собой. При этом обычно печатаются очень короткие участки этих последовательностей, чтобы подчеркнуть определенную особенность в их строении.

Третья причина необходимости баз данных: они позволяют использовать мощные инструменты для изучения информации и для сравнения интересующих последовательностей с уже известными. Часть из этих инструментов интегрирована с базами данных, часть – существует отдельно. Некоторые из них можно установить на собственном компьютере. Тогда можно не подключаться к базе данных, а будет использована локальная выборка из нее. Иногда и такой малой выборки бывает достаточно для работы. Это получается быстрее и надежнее, поскольку Интернет не всегда хорошо работает. Подробнее об этом позже.

Прежде всего базы данных можно разделить на нуклеотидные и белковые. Нуклеотидных баз данных существует три: EMBL (E uropean M olecular B iology L aboratory), GenBank (американская база данных), DDBJ (D NA D ata B ank of J apan). Первая из них – GenBank, EMBL была создана чуть позже, а затем уже появилась DDBJ.

Белковых баз данных также существует несколько: PIR, SWISS-PROT и др. PIR и SWISS-PROT содержат первичные белковые последовательности, аннотированные, т.е. показаны положения различных активных сайтов белка, могут быть отмечены некоторые элементы структуры. Но реальную трехмерную структуру предоставляет только одна база данных – PDB (P rotein D ata B ank). Она в специальном формате содержит координаты атомов определенных трехмерных структур.

Базы данных можно классифицировать еще по другому признаку и разделить их на первичные и вторичные. Первичными считаются те базы данных, которые содержат экспериментально определенную информацию. Сюда автоматически попадают все нуклеотидные базы данных, поскольку это все результаты секвенирования. Из белковых сюда попадает только PDB, поскольку все трехмерные структуры определяются экспериментально. Только очень небольшая часть белковых последовательностей в PIR и SWISS-PROT реально экспериментально определена, поэтому они и все прочие белковые базы данных считаются вторичными.

Чем должна характеризоваться стандартная база данных? В базе данных записана информация о конкретных последовательностях, которые либо экспериментально определены, либо теоретически выведены на основании экспериментально определенных последовательностей. Классический пример: основная масса данных белковых баз, которые получены просто трансляцией нуклеотидных последовательностей. Чтобы был какой-то толк в базах данных, данные должны быть упорядочены, аннотированы (т.е. должна быть написана вся доступная информация), проиндексированы (индексация ведется по многим параметрам: по описанию, по авторам, по названиям статей, в которых опубликована информация, по названию гена и белка – по ключевым словам, но не непосредственно по последовательности, т.к. там другие механизмы). В базу данных встроен механизм добавления информации и механизм ее обновления, хотя с последним обычно бывает сложно. Еще один немаловажный фактор, который характеризует базу данных, – перекрестные ссылки с одной базы данных на другую. Классический пример: при сравнении белков между собой, поскольку это вторичная информация, всякая белковая последовательность будет иметь ссылку на первичную нуклеотидную последовательность, трансляцией которой и была получена соответствующая белковая. Тем самым можно проконтролировать, правильно ли была сделана трансляция, не упущено ли начало белка (в некоторых случаях приводимая белковая последовательность может начинаться не с того стартового кодона). Кроме того, могут быть ссылки на какие-то специализированные базы данных (например базы данных активных сайтов или промоторных элементов) и т.д. Как правило, каждая база данных содержит некий механизм поиска, специализированный в соответствии с используемой схемой индексации. Также имеется доступ для стандартных программ, которые занимаются поиском в таких базах данных.

GenBank создавалась в Los Alamos National Laboratory, где разрабатывали ядерную бомбу. Первоначально все данные нуклеотидных исследований были строго засекречены. Только в 1992 г. GenBank сделан полностью достуным и передан из оборонной лаборатории в ведение национального центра биотехнологической информации США. Адрес легко запомнить: N ational C enter of B iotechnological I nformation (Национальный центр биотехнологической информации), N ational L ibrary of M edicine (Национальная библиотека медицины), N ational I nstitute of H ealth (Национальный институт здоровья). Это основной центр для биотехнологических исследований во всем мире, обеспечивает доступ ко всем базам данных. На кластере суперкомпьютеров этого центра установлены программы для поиска в огромных массивах данных, и к ним есть доступ со всего мира. Т.е. можно зайти по указанному адресу, осуществить поиск в данной базе данных и во всех, которые к ней привязаны.

Размеры базы данных GenBank, приведенные на слайде, уже изменились и приближаются к 1011. Миллиарды баз данных, миллионы отдельных нуклеотидных последовательностей, больше миллиона генов, огромное количество библиографических ссылок, которые с этим связаны… В 2001 г. Наблюдался огромный темп роста, потому что заканчивалось секвенирование генома человека. Сейчас этот темп немного упал, но эта база данных по-прежнему удваивается где-то за год-полтора. На самом деле в связи с разработкой геномных секвенаторов ожидается новый скачок. Когда они начнут выдавать на-гора данные различных индивидуальных геномов, произойдет очередной резкий рывок в размерах этих баз данных.

Принято европейцам сдавать установленные нуклеотидные последовательности в европейскую базу данных (EMBL), американцам – в американскую (GenBank), японцам и прочим азиатам – в японскую (DDBJ).

Основная белковая база данных – SWISS-PROT – создана в Швейцарии. С самого начала за нее отвечает один человек – Т… Ему удалось создать команду экспертов, которые занимаются аннотацией белковых последовательностей. В середине 90-х в SWISS-PROT наблюдался кризис, когда правительство Швейцарии решило, что группа … получает слишком много денег. Но удалось получить какое-то другое финансирование и преодолеть этот кризис.

Чем она хороша? За счет того что данные не генерируются автоматической трансляцией данных GenBank, а курируются реальными людьми, эта база данных характеризуется высоким качеством. В ней практически нет дупликаций. В GenBank содержится несколько вариантов одной и той же последовательности, и если подходить формально к генерации белковой базы данных, то получится несколько белковых последовательностей, которые скорее всего будут идентичными. Если все это выполняется автоматически, эти несколько одинаковых белковых последовательностей останутся в базе данных, поскольку они будут логически привязаны к разным нуклеотидным последовательностям. SWISS-PROT – единственная белковая база данных, которая поддерживается большим штатом сотрудников. По крайней мере, часть сотрудников занимается тем, что проверяет и удаляет идентичные последовательности из базы данных и правит ссылки. Поэтому если есть несколько нуклеотидных последовательностей, соответствующих одной белковой, то в SWISS-PROT просто будут содержаться все ссылки на имеющиеся нуклеотидные последовательности. Информация при этом не теряется, и нет дупликаций.

Эта база данных содержит, наверное, самое большое количество перекрестных ссылок как на нуклеотидные последовательности, так и на специализированные базы данных. Последние оказываются очень полезными, если хотят проанализировать детально белковую последовательность.

Аннотация в SWISS-PROT очень качественная: состоящая из биохимиков и узкоспециализированных молекулярных биологов группа экспертов, которые являются специалистами в области отдельных семейств белков, аннотирует белки, которые обладают гомологией с членами соответствующего семейства. Поскольку все эти люди реально занимаются и имеют дело с белками, они действительно знают и чувствуют структуру и сиквенс белков и поэтому могут предложить качественную аннотацию. При компьютерной аннотации могут совершаться ошибки, если уровень гомологии нуклеотидных последовательностей не очень большой; в таких случаях компьютер не может сделать корректное заключение, гомологичные это последовательности или аналогичные, а человек часто может.

SWISS-PROT хорош еще тем, что на главной странице можно получить доступ к нескольким удобным инструментам для характеристики белковой последовательности, необязательно даже той, что есть в базе данных. Можно загрузить и свой белковый сиквенс.

Недостатки баз данных. Любая база данных, как и любая информация, всегда содержит ошибки, и это необходимо учитывать при использовании такой информации. В связи с тем что в базах данных содержится огромный объем информации, человек даже просмотреть это все не может, сколько бы людей не наняли. К примеру, чтобы прочитать тот же геном человека, никому жизни не хватит. Т.е. ошибки всегда будут. Их можно разделить на два типа: ошибки аннотации и ошибки секвенирования. К последним относятся замены нуклеотидов (в последовательности может стоять не та буква, которая реально присутствует в генотипе), от них никуда не денешься. Считается, что в современных сиквенсах, которые были сделаны недавно, должно содержаться не более 1 ошибки на 100 т.н.п. (хотя допустимо и до 10 т.н.п.). Более старые сиквенсы или сиквенсы, которые только что вышли из какого-то геномного проекта, могут содержать больше ошибок. Такие ошибки не очень страшны, поскольку при этом белковая последовательность сильно не нарушается. Более серьезная ошибка сиквенса – это сдвиг рамки считывания, т.е. делеция или инсерция одного или нескольких нуклеотидов, но не кратно трем. Это более серьезная ошибка, т.к. она может разорвать кодирующую последовательность, и в результате теряется часть белковой последовательности. Еще более существенная ошибка сиквенса – это отсутствие значительного фрагмента нуклеотидной последовательности, что может быть связано с шот-ган (short-gun) секвенированием и неправильной сборкой, когда уникальная последовательность была с двумя повторами (рассматривалось в предыдущих лекциях). И еще одна грубейшая ошибка сиквенса – то, что во многих базах данных сиквенс начинается с последовательности вектора. Это нонсенс, поскольку все программы для добавления последовательностей имеют специальные фильтры, которые должны отбраковывать все стандартные векторы и стандартные элементы уникальных векторов. Тем не менее, очень много подобных сиквенсов остается в базах данных, например последовательность, в которой начало от β-галактозидазы, а далее идет некий эукариотический белок. Это ситуация, когда искусственно к нуклеотидной последовательности был подшит кусок pUC. Надо иметь в виду такие случаи и каждый раз внимательно смотреть.

Существует также такой неприятный фактор, как избыточность баз данных, т.е. многие последовательности представлены несколько раз. Считается, что не менее 20% нуклеотидных последовательностей в GenBank – дупликации. Есть несколько причин, по которым они появляются (см. слайд). Одна из них – определение части некой последовательности секвенированием кДНК некоторое время назад и полное секвенирование всей мРНК на современном этапе. Внося новые данные, не перепроверяют наличие идентичных последовательностей в базе или не находят их, поскольку старые варианты могут содержать ошибки или быть неполными и иметь меньший размер. В результате в базе появляются уже две белковые последовательности, соответствующие одной мРНК. Более короткий вариант был первым, на него есть ссылки в литературе, и если удалить этот вариант, останутся непонятные ссылки. Старые варианты могут содержать ошибки, с учетом которых многие исследователи создавали некие конструкции, делали определенные выводы. Если эти варианты убрать, непонятно будет, откуда взялись эти учитываемые ошибки. Т.е. просто убрать некорректный вариант нельзя, заменить без последствий тоже не получится, тогда они остаются. И если две перекрывающиеся последовательности отличаются между собой хотя бы на один нуклеотид, они тоже остаются в базе данных.

Биологических баз данных очень много. Условно их можно разделить на базы данных, которые привязаны к конкретному модельному организму. Есть несколько специализированных баз данных, которые с разных сторон характеризуют дрозофилу: FlyBase, FlyView, DGP и др.

Есть специализированные базы данных, которые собирают информацию о консервативных участках последовательностей: это могут быть регуляторные участки ДНК, например промоторы и др. (PatternBase). Для белковых последовательностей есть сразу несколько таких баз. Самая старая из них – ProSite. Она привязана к SWISS-PROT и содержит информацию о наиболее консервативных участках, т.е. характерных мотивах отдельных семейств белков. Поскольку все это делается вручную, стараются выбирать мотивы, привязанные к активному сайту белка. Мотив обычно записан простым языком, который описывает повторяющиеся элементы в наборах из аминокислотных остатков. Т.е. можно самому написать такой мотив и с его помощью осуществить поиск в базах данных. С помощью специального инструмента в ProSite можно сравнить неизвестный белок с мотивом, характеризующим определенное семейство. При наличии совпадения с высокой степенью вероятности можно говорить, что изучаемый белок относится к этому же семейству. Такой поиск срабатывает, когда стандартные механизмы поиска гомологии не находят. Таким образом, ProSite помогает найти функциональное сходство между белками, когда оно фактически ограничено только активным сайтом.

Есть подобная, но автоматическая база данных – BLOCKS, которая сделана на основе ProSite. Каким образом? Выходит новая версия ProSite, содержащая список белков, на основании которых сделаны характерные мотивы. BLOCKS автоматически совмещает эти белки, определяет наиболее консервативные участки, выкидывает неконсервативные, и в результате остаются блоки с пробелами между ними. В BLOCKS можно использовать специальную программу поиска сходства с этими блоками, игнорируя расстояние между блоками, но немного учитывая их порядок. Это более чувствительные методы поиска для относительно удаленных друг от друга белковых последовательностей.

База данных ProDOM содержит информацию о белковых доменах. Эта база довольно хорошо аннотирована.

В чем заключается принцип сравнения белковых последовательностей? Как в стихотворении, если буквы повторяются, значит, в этом есть определенный смысл. Такой прием, как рефрен (повторение), чаще всего встречающийся в конце стихотворной строки, акцентирует внимание на вкладываемом смысле. Повторы в биологических последовательностях – это те же акценты, но расставленные природой. Они подчеркивают, что если есть сходство, если есть повтор, то в этом есть какая-то функциональная аналогия, а во многих случаях даже гомология. Если пытаться совмещать и искать сходства в текстах, последовательностях, в некоторых случаях получается дословное сходство, а в некоторых случаях дословного нет, но при внесении разрывов все равно можно найти общее, если подвигать строчки друг относительно друга. В случае биологического текста можно совмещать не только идентичные буквы, например изолейцин и валин – гидрофобные аминокислотные остатки, в некоторой степени похожие по своим свойствам. Давно показано, что это пример консервативной замены, которая в большинстве случаев кардинально свойств белка не меняет. Свойства немного изменяются, но белок сохраняет функциональность.

Маргарита Дайхофф была первой, кто детально проанализировал, какие аминокислотные замены происходят в белках. Будучи биохимиком, Дайхофф хорошо представляла, какая аминокислота какую функцию может выполнять в белке, и достаточно осознанно проводила сравнение последовательностей. Путем сравнения консервативных белковых последовательностей (цитохромы) между собой она предложила матрицы замещения, которые отражают вероятность замены одной аминокислоты на другую. В таблице величины круглые, поскольку здесь это логарифм вероятности. Консервативные замены имеют положительные значения в матрице замещения, неконсервативные – отрицательные. В таблице аминокислотные остатки еще дополнительно разбиты на группы, сходные по своим свойствам: неполярные, положительно заряженные полярные, отрицательно заряженные полярные, гидрофобные, ароматические. Замена изолейцина на изолейцин и изолейцина на валин имеют близкие значения в матрице. Если посмотреть на положительно заряженные остатки, замена аргинина на лизиновый остаток также имеет достаточно хорошее положительное значение. При замене валина на самого себя цифра маленькая, потому что это не консервативный остаток и в большинстве случаев на его месте будет другая аминокислота, так что вероятность повторной встречи валина на этом же месте низкая. Триптофан наоборот почти никогда ни на что не заменяется, поэтому вероятность, что здесь же в другом белке будет триптофан, максимальна. Это консервативный аминокислотный остаток за счет своих уникальных свойств. В целом ароматические аминокислоты заменяются реже, гидрофобные и полярные – часто. Серин и треонин часто заменяются друг на друга, они еще могут замениться и на аланин, и на глицин. Чем больше цифра в матрице, тем реже соответствующие аминокислотные остатки заменяются друг на друга. Чем меньше цифра, тем чаще… Замена заряженной аминокислоты на заряженную или заряженной на полярную менее консервативны, чем замена одной из них на гидрофобную.

Таких матриц есть несколько. Та же Дайхофф в начале 70-х гг. предложила целую серию матриц, которые были разработаны для белков, находящихся на различном эволюционном расстоянии друг от друга. В чем здесь может заключаться проблема? Если белки очень далеки, в одной позиции могло уже произойти несколько замен, и это нужно учитывать, потому что иначе получается слишком большая погрешность. Не та статистика получается, и матрицы оказываются не такими чувствительными. Для близкородственных белков такой возможностью можно пренебрегать.

До середины 90-х этими матрицами пользовались практически без изменений. Позже их обновили. Бласт до сих пор пользуется другой матрицей, которая называется блоссон хирия – аббревиатура от blocks substitution matrix. Стандартная матрица – blocks62. Цифра соответствует проценту идентичных аминокислот в сравниваемых белках, которые использовались для создания этой матрицы. Т.е. blocks62 будет лучше всего работать на белках, сходных друг с другом на 62%. Если анализируются более сходные белки, нужно брать другую матрицу, например blocks80. Если менее сходные – blocks30 или др. Выбор матрицы во многом определяет чувствительность сравнения, поскольку близкородственные и не очень близкородственные белки по-разному эволюционировали.

Рисунок 3,25

Лекция 7 обязательно просмотрите практику (занятие1)!!

Используеися натуральный логарифм, который округляется. Положительное значение говорит о консервативной замене, отрицательное – о неконсервативной.

 

Сравнение последовательностей.

Первый шаг в сравнении-совместить таким образом, чтобы идентичные основания стояли друг напротив друга, или были консервативными.

Рисунок 3,27

За счет пробелов можно сдвинуть и увеличить степень соответствия между последовательностями.

Как выразить степень сходства? Самый простой и древний способ – точечная диаграмма.

Рисунок 3,28

Принцип – берутся две последовательности, 1 последовательность пишется по одной оси, 2 – по другой. Где буквы совпадают по вертикали и по горизонтали - ставится точка. Если основания идут подряд - точки выстаиваются по диагонали. Является наглядным способом.

Рисунок 3,29

Реальная картина сравнения белковых последовательностей.

Получается, что таких диагоналей много, но только часть из них - значимые. За счет подбора параметров можно убрать неспецифическое взаимодействие и в результате ограничится более значимой – главной диагональю. Она разорвана на несколько кусочков, т.к. в ходе эволюции происходили делеции или вставки.

Манипуляция с параметрами позволяет выявить гомологичные участки и правильно сопоставить последовательности между собой.

Для сопоставления используются определенные алгоритмы. Самые первые - глобальные и локальные.

Рисунок 3,40

 

Глобальный алгоритм: сравниваются целиком две короткие последовательности. Преимущество – точно просчитать статистическую вероятность совпадения последовательностей друг с другом при введении пробелов. Затем нужно двигать последовательности влево/вправо и в некоторых случаях добавлять разрезы/убирать их. Это длительный и исчерпывающий процесс.

Локальный алгоритм работает по-другому. Сначала между двумя последовательностями выбирают небольшой участок, который совпадает между ними. Затем алгоритм расширяет область гомологии влево/вправо.

Программа передает информацию словами. Понятие слово – последовательность символов. В случае аминокислотной последовательности – 2-6 букв (аминокислот)/редко 1; нуклеотидная длинее - 11 (7-12)

Как работает программа? Выбирается определенное слово и находится то место, где оно встречается в другой последовательности. Когда место локализовано, алгоритм пытается решить область гомологии влево/вправо.

Показатель степени гомологии. В нуклеотидной последовательности – число совпадающих нуклеотидов, в аминокислотной – содержится больше информации, считается не число, а по матрице замещения суммируются цифры. В результате счет, который выдает программа, может быть положительным – идентичные/консервативные паследовательности, и отрицательным – неконсервативные/негомологичные. Путем введения пробелов можно всегда получить положительное значение.

Самый первый алгоритм Смита-Уотермана в 70-ых гг.

 

Рисунок 3,41

На примере нуклеотидных последовательностей берется точечная диаграмма. Если совпадает значение нуклеотидов - ставится 1 очко. Можно продлить диагональ дальше – просто сдвинуть. В норме алгоритм суммирует значения и вычисляет стоимость пробела. Алгоритм работает путем максимального продления диагонали и минимального внесения разрывов. На выходе алгоритм дает совмещенные последовательности и счет соответствует случайному совпадению последовательности между собой. До сих пор используется, но в целях поиска информации в БД непригоден, т.к. очень медленно работает.

Принципиально другие алгоритмы – эвристические, которые не опираются на достоверные статистические данные. Суть – не вычисление детальной статистики, используется другой подход. Достаточно произвольно выставляются буквы за совпадающие буквы и пробелы.

Рисунок 3,42

FASTA жива до сих пор. Алгоритм наиболее близок к алгоритму Смита-Уотермана. Чувствительный, может работать для отдаленных последовательностей. BLAST находит блоки идентичных оснований, которые должны быть достаточно протяженными, поэтому плохо работает на отдаленных последовательностях. Есть модификации, которые не уступают по чувствительности.

Принцип действия алгоритмов один и тот же. Первый поиск – эврестический, когда отобраны последовательности – вторичный поиск – исчерпывающие совпадения последовательностей, где есть реальные области гомологии.

 

Рисунок 3,43

Blastx, fastx, fasty – сравнение нуклеотидной последовательности с белковой. Как это происходит? ДНК транслируется и сравниваются с белковой последовательностью в БД. Преимущества – более чувствительный метод. В эволюции нуклеотидные замены идут быстрее, чем белковые. На уровне нуклеотидов можно не видеть сходства, а на уровне белков видеть, когда происходит замена в консервативной АМК свойства белка не должны менятся, что позволяет видеть более отдаленную гомологию. Позволяет учитывать ошибки в рамках считывания.

TBlastn, tfastx, tfasty – наоборот, сравнение белковой последовательности с белковой БД. Отличия х и у – у более чувствительна, поскольку учитывают кодоны, т.е. не вносит разрывы в пределах кодона. Преимущества – позволяет сравнить белк. посл. С той белк.посл., которой еще нет в белковой БД, что связано с длительностью аннотации (перевод из нуклеотидной БД в белковую). Информация в итоге может и не попасть в белковую БД за счет ошибок аннотоции, секвенирования, ошибки рамки считывания.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...