Май 2024
Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Дек
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Вы находитесь здесь: Главная > Мобильные новости > Подвиг в цифре Возможно, вы уже знаете, о проектах ОБД «Мемориал» и «Подвиг Народа», на которых выложены документы из военных архивов

, на которых выложены документы из военных архивов

Опубликовано в рубрике Мобильные новости | Сентябрь 21st, 2013

Сканирование бесконтактное, хотя на практике листы все же прижимают стеклом. Поверхность сканирования может «переламываться», образуя книжную «колыбель» — дела можно сканировать без расшивки, что в ряде случаев принципиально. Кстати, для книг существует особый сканер, который сам нежно листает страницы. И вот коробка документов просканирована, а дальше начинается самое интересное и сложное. Сам по себе образ документа практически бесполезен без распознания содержащейся в нем информации. Казалось бы, созданы замечательные программные комплексы для машинного распознавания документов, и извлечение информации из сканов вопрос лишь машинного времени. Но, как оказалось, при распознавании документов 70-летней давности, даже напечатанных на машинке, доля ошибок колеблется вокруг 50-процентной отметки. На исправление этих ошибок оператор тратит больше времени, чем на ввод той же информации вручную. Вот такая техническая загогулина. А если учесть, что значительная часть документов вообще написана от руки, становится очевидным, что без человека опять не обойтись. В настоящее время проект ОБД «Мемориал» содержит 29 млн записей, а «Подвиг народа» 12 млн Цифра 29 млн не означает общее количество погибших, зачастую на одного бойца может быть несколько записей, на каждую из которых уходит порядка 3 минут рабочего времени оператора. В итоге счет идет на миллионы человеко-часов. Оператор за работой Для решения проблемы, разработчикам пришлось призвать целую армию операторов «надомников» – пять тысяч человек. Причем не только из Москвы, но и из российских регионов. Для того, чтобы минимизировать ошибки, каждый документ дважды распознавался разными операторами. Если их результат совпадал (это легко проверяется машиной), то данные заносились в базу. В противном случае документы уходили на новый круг или передавались эксперту, который лучше разбирается в почерках. Более того, каждая запись содержит 8-10 полей. Операторам выдавались образы лишь одного поля (ячейки таблицы), без возможности посмотреть весь документ. Это не только препятствовало утечке информации и способствовало более качественному распознаванию, но и щадило нервную систему операторов. Ведь читать подряд «Донесения о безвозвратных потерях» очень тяжелая психологическая нагрузка. А вот вычитка номеров частей или мест призыва совсем не угнетает. И это еще не вся выгода от разбивки по полям. Объем данных столь велик, что разработчики на первом этапе сосредоточились на внесении только основных данных. Это позволило ускорить и удешевить создание системы. Информация о местах первичного захоронения, равно как и об адресе родственников погибших бойцов, будет распознана позже. Пока ее можно прочесть только на электронных копиях документов. Сколько всего страниц придется отсканировать в рамках совершенствования проекта разработчики пока не говорят, но, похоже, их операторам придется не менее года разбирать карандашные записи сделанные в окопах и блиндажах. И вот документ отсканирован, распознан, что дальше? Дальше информация заливается на серверы, расположенные на площадке Ростелекома. Это мощный провайдер, однако и его ресурсов не всегда хватает при пиковых нагрузках, которые традиционно приходятся на начало мая. В этом году к ресурсу за праздничные дни обратились 1 млн раз, при этом 9 мая число их число достигло 180 000 человек, что привело к временным перебоям. По словам разработчиков, база построена по образцу карт Google — образы документов состоят из «тайлов», отдельных квадратиков, складывающихся в мозаику. Это позволяет существенно уменьшить нагрузку на сервер при отдаче документа. Одновременно это стало своеобразной защитой от копирования документов. Для того, чтобы собрать оригинал, надо скачать все «тайлы» при 100% увеличении и после собрать из них целый лист. Разработчики утверждают, что это было требование заказчика — Минобороны, для того, чтобы осложнить жизнь «черным копателям». Впрочем, для документов о погибших или приказов о награждениях сделано исключение — их можно сохранить без проблем. Обращение к базам ведется через поисковые запросы. Причем, в отличие от Яндекса или Google, чем запрос менее конкретен, тем успех более реален. Дело в том, что в исходных документах очень много ошибок, зачастую они неполные. Например, не указаны отчество или год рождения, что приводит к непониманию запроса поисковой машиной. Наилучший результат получается при вводе минимального количества слов. Лучше вводить минимум информации — как правило, только фамилию и имя. И уже потом, добавлять данные в другие поля. Армейские писари не отличались большой грамотностью и, записывая со слуха, зачастую путали буквы. А в окончании фамилии или отчества может быть форменный кошмар. Это выправляется подстройкой условий в расширенном поиске. Вместо заданного по умолчанию «Точная фраза» можно использовать «С начала поля» или «Полнотекстовый поиск». Надо понимать, что электронные базы ОБД «Мемориал» и «Подвиг Народа» — это отображения бумажных документов. Если ошибка содержится в бумаге — она перекочует в электронную опись. Это проблема, которая пока не решена. Предложения и замечания по исправлениям принимаются, но не всегда отражаются в базе. Исправляют только очевидные ошибки, при этом определение степени очевидности разработчики оставляют за собой. Конечно, они согласны с тем, что база должна совершенствоваться, но для этого нужны уже не операторы-надомники, а люди, способные более глубоко анализировать информацию, находить связи, которые нет на поверхности. Учитывая число записей и необходимость больших трудозатрат при анализе, работа может растянуться на долгие годы. На помощь может прийти новый проект, который вызревает в недрах Минобороны и компании «ЭЛАР». Суть его в объединении баз существующих проектов с добавлением в них географической составляющей. Идея довольно простая — каждый человек или воинское подразделение, в каждый момент времени находится лишь в одной географической точке. Таким образом, все происходившие события можно привязать к географической карте. Звучит легко и просто, а дальше начинаются многочисленные «но». В первую очередь, необходимо создать векторную географическую карту европейской части СССР по состоянию на 1941-1945 годы. В настоящее время многие населенные пункты уже не существуют, их координаты и границы неизвестны. Привязка к карте мест расположения частей и подразделений, тоже очень непростой процесс, который возможен только вручную. Расположение частей и подразделений позволит уже локализовать места первичных захоронений. Обычно они привязывались к конкретным населенным пунктам, которые находились рядом с местами дислокации частей. В свою очередь, это позволит более точно заполнить места первичных захоронений, информация о которых не распознавалась.