Главная | Обратная связь | Поможем написать вашу работу!

Перевод цветного изображения в полутоновое RGB(YUV)

ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ

Распознавание текста на изображении — довольно распространенная задача, которая решается множеством платных (яркий представитель Abbyy FineReader) и свободных (OpenCV, Tesseract) библиотек и программ, однако почти всегда полученный текст не полностью совпадает с оригинальным, что может стать проблемой при выполнении поиска ключевого слова, при этом на работу сложных и ресурсоемких алгоритмов компьютерного зрения затрачивается много времени (от нескольких минут до нескольких часов).

Вместе с тем зачастую необходимо не получить текст с изображения, а всего лишь найти ключевое слово на изображении текста, например для быстрого перехода к нужной информации для чтения. При этом не важно получение информации в текстовом формате, а важно нахождение места на изображении. Данную задачу можно решить при помощи менее ресурсоемких алгоритмов и затратив при этом минимум времени, которое может быть сравнимо со временем обычного поиска ключевого слова в текстовом представлении информации и составляет несколько секунд.

Задача сегментации включает в себя выполнение некоторых подготовительных процессов, таких как бинаризация и утоньшение, самой сегментации, а также распознавании среди полученных претендентов, при этом можно использовать различные методы обработки изображений.

Способы перевода цветного изображения в полутоновое

Прежде чем приступить к бинаризации, цветное изображение должно быть переведено в полутоновое.

Существует ряд различных способов перевода цветного RGB изображения в другие системы, в которых возможно отдельно выделить яркость каждого пикселя, что необходимо для полутонового изображения.

Перевод RGB в HSB (HSV)

В ходе преобразования значения яркостей по красной, зеленой и синей составляющим, заданные в диапазоне [0..1], конвертируются в модель HSB (HSV). Получают значения в следующих диапазонах:

Н – цветовой тон (0-360°), 0° – красный

S – насыщенность (0-1); B(V) – светлота (0-1)

Мах – функция определения максимума среди трех составляющих R,G, и B.

Min – функция определения минимума среди трех составляющих R,G, и B.

Алгоритм перевода RGB в HSB (HSV) следующий:

V = MAX

Перевод RGB в HSL

Начальные условия, диапазоны изменений и обозначения аналогичны предыдущему пункту. Алгоритм перевода приводится ниже.

L = ½(MAX + MIN)

Перевод RGB в CMYK

Перед конвертацией значения яркостей по красной, зеленой и синей составляющим нормализуются. Основной принцип преобразования состоит в следующем:

tC'M'Y' = {1 - R, 1 - G, 1 - B };

K = min{ C', M', Y' };

tCMYK = {0, 0, 0, 1} if K = 1

tCMYK = { (C' - K)/(1 - K), (M' - K)/(1 - K), (Y' - K)/(1 - K), K }

Перевод RGB в YUV (YUV444)

Диапазоны изменения входных и выходных величин следующие:

· величины R, G, B, Y могут принимать значения в диапазоне [0, 1];

· величина U – в диапазоне [-0.436, 0.436];

· величина V – в диапазоне [-0.615, 0.615].

Преобразование RGB в YUV (YUV444) осуществляется по следующему принципу:

tYUV = { (0.299 R + 0.587 G + 0.114 B), (- 0.14713 R + 0.28886 G + 0.436 B), (0.615 R + 0.51499 G + 0.10001 B) }

Перевод RGB в XYZ

a = 0.055 и 2.2

где

Следует отметить, что при переводе в полутоновое любым из этих методов качество изображения может ухудшиться.

После проведения перевода из цветного изображения в полутоновое можно приступать к бинаризации изображения.

В курсовом проекте предпочтительнее задействовать четвертый метод перевода RGB в YUV, так как при его использовании наблюдаются наименьшие потери информаии и удобнее использовать значение интенсивности в качестве полутоновой яркости.

Методы бинаризации

Бинаризацией называется процесс преобразования полутонового изображения в изображение, яркость пикселей которого может иметь только два значения – 0 или 1.Такое изображение называется бинарным.

В зависимости от вида изображения применяются различные методы бинаризации:

· Метод средней яркости (локальный метод):

·Вычисляем среднюю яркость

·Определяем граничное значение яркости по формуле:

ГЗ=255 – СЯ, где ГЗ- граничное значение, СЯ- средняя яркость.

·Пиксель становится черным, если среди его соседей есть хотя бы один пиксель яркость которого удовлетворяет условию:

Яркость ≤ ГЗ, либо яркость анализируемого пикселя ≤ яркости связного с ним +Step, Step= 1…2.

При этом важно чтобы связующий пиксель был уже включен в группу пикселей, которые будут отмечены как черные.

· Метод «Мод»:

Выполняется построение гистограммы яркости. По построенной гистограмме выбирается значение яркости соответствующее впадине или минимуму между двумя максимальными вершинами гистограммы. Недостатком данного метода является зависимость результата от гистограммы.

· Метод 120:

·Строится гистограмма

·Находится максимальный уровень серого в диапазоне t=[0, 120]

·Черный цвет устанавливается у пикселей, яркость которых меньшелибо равна порогового значения плюс 12…15, в остальных случаях цвет белый.

· Метод 40%:

·Строится гистограмма

· Находится количество пикселей, соответствующий заданному проценту

· Отсчитывается количество пикселей по градациям яркости, начиная с 0 и до момента, когда это количество будет превышать количество пикселей, заданных в постановке задачи бинаризации, и градация, на которой произошла постановка становится порогом бинаризации.

· Пороговый метод:

Определяется порог яркости t. Все что больше этого порога считается белым, все что меньше — черным.

При переводе в бинарное изображение могут быть потери или наоборот шумы из-за неточности сканера, поэтому после бинаризации может следовать фильтрация.

Для бинаризации изображения, получаемого с экрана смартфона, целесообраазно было бы использовать, например, пороговый метод либо метод 120.

Способы сегментации

Проблема сегментации зачастую возникает при рассмотрении задачи оптического распознавания текста. Сегментация — это процесс разделения цифрового изображения на несколько сегментов. Цель сегментации заключается в упрощении и/или изменении представления изображения, чтобы его было проще и легче анализировать. Сегментация изображений обычно используется для того, чтобы выделить объекты и границы (линии, кривые, и т. д.) на изображениях. Более точно, сегментация изображений — это процесс присвоения таких меток каждому пикселю изображения, что пиксели с одинаковыми метками имеют общие визуальные характеристики.

В настоящее время существует довольно много систем сегментации и обработки текстовых изображений. Наиболее известной из них является программный продукт “FineReader” компании ABBYY. Данный продукт является универсальным инструментом при работе с текстовыми изображениями. Он позволяет выделить текст на изображении и распознать его.

Результатом сегментации изображения является множество сегментов, которые вместе покрывают всё изображение, или множество контуров, выделенных из изображения. Все пиксели в сегменте похожи по некоторой характеристике или вычисленному свойству, например по цвету, яркости или текстуре. Соседние сегменты значительно отличаются по этой характеристике. Существуют следующие методы сегментации:

· Выделение краёв:

Границы и края областей сильно связаны, так как часто существует сильный перепад яркости на границах областей. Поэтому методы выделения краёв используются как основа для другого метода сегментации. Недостаток – обнаруженные края часто бывают разорванными. Но чтобы выделить объект на изображении, нужны замкнутые границы области.

· Методы с использованием гистограммы:

Методы с использованием гистограммы очень эффективны, когда сравниваются с другими методами сегментации изображений, потому что они требуют только один проход по пикселям. В этом методе гистограмма вычисляется по всем пикселям изображения и её минимумы и максимумы используются, чтобы найти кластеры на изображении. Цвет или яркость могут использоваться при сравнении. Недостаток этого метода — затруднительный поиск значительных минимумов и максимумов на изображении.

· Метод мод:

Метод мод обычно используется при бинаризации полутоновых изображений, однако его принципы можно использовать и при выполнении сегментации. Заключается метод в том, что полученная на предыдущем этапе сегментации гистограмма, имеющая два ярко выраженных пика, может быть разделена на две части, и одни объекты или признаки, которые находятся ближе к одному пику, можно отнести к одному классу, а объекты или признаки, которые находятся ближе ко второму пику, могут быть отнесены к другому классу.

В данном курсовом проекте, учитывая область работы, было бы предпочтительнее использовать метод гистограмм и метод мод, так как они позволяют избавиться от трудоемких вычислений и быстрее всего сегментировать участки изображения.

Способы распознавания.

Распознавание образов - это отнесение исходных данных к определенному классу с помощью выделения существенных признаков, характеризующих эти данные из общей массы несущественных данных. В основе работы программ распознавания текста лежит достаточно серьёзный математический аппарат. И это оправдано сложностью задачи, особенно самого процесса распознавания.

Системы распознавания бывают следующих типов:

·системы распознавания объектов с учителем;

·системы распознавания объектов без обучения;

В системах распознавания без обучения первоначально заданной информации достаточно, чтобы разделить все множество объектов на классы в соответствии с каким-либо набором признаков.

Работу системы с учителем можно разделять на две части: обучение и распознавание. В ходе обучения системы ей предъявляются отдельные объекты с указанием того, к какому классу относится данный объект. Затем происходит распознавание: предъявляется неизвестный объект и система сама должна определить его принадлежность. Это решение принимается на основании решающих правил.

В данном курсовом проекте было рекомендовано использовать систему распознавания без учителя. Для этого необходимо сформировать набор признаков, позволяющий осуществить распознавание ключевого слова среди претендентов, которые будут получены после сегментации.

2. ПОСТАНОВКА ЗАДАЧИ

Целью курсового проекта является разработка приложения для ОС Android, позволяющего найти ключевое слово на изображении текста, полученном при помощи создания скриншота экрана. Приложение реализовано в среде Android Studio на языке Java.

Входные данные:

·Изображение-скриншот с ключевым словом и текстом в *.jpg без сжатия.

Ограничения:

· Ключевое слово должно располагаться первой строкой на изображении, дальше должен идти сам текст для поиска.

· Ключевое слово должно быть одним.

· Ключевое слово и текст должны быть напечатаны шрифтом Roboto размером не менее 10pt.

·При наличии цветных посторонних объектов, текст и ключевое слово должны быть напечатаны черным цветом.

Выходные данные: изображение текста с выделенными на нем красным цветом найденные слова, кроме этого гистограмма количества пикселей в строках и диаграмма расстояний между символами.

При выполнении курсового проекта необходимо решить следующие задачи по обработке изображения:

· Создание скриншота;

· Перевод изображения из цветного в полутоновое методом RGB(YUV);

· Бинаризация пороговым методом с порогом по умолчанию = 128, либо бинаризация методом 120;

· Сегментация строк методом гистограмм;

· Поиск расстояний между символами и словами методом гистограмм;

· Сегментация слов чередующимся цветом с помощью метода мод и выделение претендентов на основании количества символов;

· Утоньшение изображений ключевого слова и претендентов методом попиксельного итеративного утоньшения;

· Распознавание ключевого слова среди претендентов на основании информативных признаков.

На основании вышеперечисленного были построены функциональные схемы приложения в формате IDEF 1 и 2 уровня, которые приведены на рисунках 1,2. IDEF схема 3 уровня построена для последних двух пунктов.

3. АДАПТАЦИЯ И ОПИСАНИЕ ИСПОЛЬЗУЕМЫХ АЛГОРИТМОВ

Перевод цветного изображения в полутоновое RGB(YUV)

Для перевода цветного изображения, получаемого с экрана смартфона в полутоновое, был выбран метод перевода в систему YUV, которая позволяет достоверно и легко без существенных потерь выделить интенсивность пикселя, что и необходимо для полутонового изображения.

Диапазоны изменения входных и выходных величин этого способа первода следующие:

· величина Y – интенсивность, может принимать значения в диапазоне [0, 255];

· величина U – в диапазоне [-0.436, 0.436];

· величина V – в диапазоне [-0.615, 0.615].

Преобразование RGB в YUV осуществляется по следующему принципу:

tYUV = { (0.299 R + 0.587 G + 0.114 B), (- 0.14713 R + 0.28886 G + 0.436 B), (0.615 R + 0.51499 G + 0.10001 B) }

Если учесть, что в данной задаче необходима только интенсивность, то достаточно применить одну формулу:

Y = 0.299 R + 0.587 G + 0.114 B.

Полученная интенсивность Y и принимается за яркость каждого пикселя в полутоновом изображении.

После проделанного можно приступать к бинаризации любым из выбранных методов.

12 3 Следующая ⇒

Воспользуйтесь поиском по сайту: