В Массачусетском институте разрабатывается принципиально новая система распознавания изображений
Сотрудники Массачусетского технологического института разрабатывают принципиально новую технологию каталогизации и машинного поиска изображений.
По словам доцента Лаборатории информатики и компьютера MIT Антонио Торральбы, он и его коллеги стараются определить минимальное количество информации для каждого графического изображения, которое позволит (машине или человеку) получить представление о его содержании. Иными словами, речь идёт о по потенциал кратком цифровом коде, которым можно было бы представить содержимое картинки.
Сейчас поисковые системы используют, в первую очередь, название и заголовки самих изображений (тэг alt), но, так как пользователи должны ставить этот тэг вручную каждый раз, далеко не у всех изображений такие заголовки есть. Кроме того, не менее,чем поисковый робот Google исследует текстовое окружение картинки и ведущие на неё ссылки. Расшифровать непосредственно содержание изображений в отрыве от контекста крупнейшие поисковики пока не в состоянии.
"Мы пытаемся представить изображения в виде очень короткого кода, - говорит Торральба, - так что если у двух изображений такие коды оказываются похожи, то и сами они, скорее всего, имеют между собой определённое сходство, например, изображают примерно одинаковые объекты примерно в одинаковой конфигурации". Таким образом, если одна картинка снабжена описывающим её содержание названием или тэгом alt, то другие изображения, чьи репрезентные цифровые коды оказываются сходны с кодом первой, по мнению исследователей, будут отображать такие же объекты, что и первая. И после этого термины (названия и понятия), ассоциируемые с первой картинкой, можно экстраполировать на другие, непоименованные, изображения.
Чтобы выяснить, насколько мало визуальной информации требуется людям, дабы распознать предмет на том или ином изображении, Торральба и его сотрудники поступательно снижали разрешение одних и тех же картинок, и проверяли, содержание скольких изображений люди могли распознать на каждом этапе.
"Мы можем понять, что изображено на картинках даже когда их разрешение очень мало, потому как мы многое знаем о самих картинках, - говорит Торральба. - Как правило, человеку достаточно, дабы разрешение картинки составляло 32 на 32 точки, в надежде распознать её содержание". В свою очередь, миниатюры в поисковике Google имеют размеры 100х100 точек.
Даже недорогие цифровые камеры сегодня производят изображения разрешением в несколько мегапикселей, по 24 бита данных на каждый пиксель. Однако Торральба и его соратники придумали математический аппарат, который позволяет сократить объём полезных данных, так что каждое изображение можно представить в виде кода размером в 256-1024 бита, при этом содержимое изображения остаётся хотя бы частично распознаваемым.
В результате, с помощью своей системы кодирования, Торральбе и его коллегам удалось представить 12,9 миллионов изображений, скачанных из интернета, в виде массива объёмом всего лишь 600 мегабайтов данных (компакт-диск вмещает до 700, общераспространённые флэш-драйвы - до 4 гигабайт). По словам исследователей, их система без меры неплохо справляется с определением нескольких наиболее распространённых типов объектов - людей, машин, растений и строений. С более "экзотическими" образами она справляется хуже.
По словам Торральбы, его исследования по-прежнему находятся на ранних этапах, и что проблемы с определением нечасто встречающихся объектов, скорее всего, будут оставаться всегда.
citcity.ru