RU | ENG

Современное общество в основном перешло от бумажных документов к электронным. Этот шаг дал многочисленные преимущества. Теперь намного проще обмениваться документами, копировать и редактировать их. Настало время сделать следующий шаг - извлечь из документов те данные, которые могут быть использованы аналитическими приложениями.

Например:

  • Финансовые отчеты открытых акционерных компаний общедоступны, но только после извлечения числовых данных из балансовой ведомости, отчета о доходах и расходах, денежных потоков и других частей финансовых отчетов сотен компаний банковские аналитики способны производить финансовый анализ и прогнозирование.
  • Договора об аренде недвижимого имущества содержат многочисленные таблицы данных. Данные извлеченные из этих таблиц используются фирмами по торговле недвижимым имуществом для формирования ценовой политики.
  • Большие страховые компании получают горы требований о страховых возмещениях. Извлечение данных из этих требований является неизбежным этапом обработки требования.
  • Каждое предприятие хранит тонны документов, в которых стпрятана и часто остается неиспользованой ценнейшая информация, которая могла бы послужить основой для оптимального управления производством.

Сам процесс ручного извлечения данных из документов медленен, требует больших трудовых затрат. Кроме того результаты извлечения данных сделанного непрофессионально часто содержат ошибки и разночтения. Это является главной причиной, по которой довольно часто компании предпочитают оставить ценную информацию погибать в документах вместо того чтобы использовать ее на благо бизнеса.

Мы предлагаем недорогое решение этой проблемы. Мы берем на себя бремя извлечения данных из документов. Вы только должны рассказать нам какие именно данные вы хотите извлечь из документов каждого типа и затем можете просто посылать документы к нам и через несколько часов Вы получите структуру содержащую все извлеченные данные. Вместе с структурами содержащими данные Вы получите формы показывающие место каждого элемента данных в исходном документе для того чтобы Вы могли удостовериться в правильности результата.

Цены

Наши клиенты могут выбрать один из 3 вариантов оплаты :
1. Фиксированная цена за элемент данных - лучший вариант для тех, кто только пробует наши услуги и тех, кто не может оценить объем данных в документах. Мы запрашиваем от 10с за каждый элемент данных извлеченный из документа содержащего несколько сотен страниц. Вы можете сравнить эту стоимость с тем что Вы должны были бы заплатить в виде зарплаты своему работнику, который должен был бы перерыть документ в поисках данных и послать их в Ваше хранилище данных, если бы Вы решили организовать извлечение данных самостоятельно.
2. Фиксированная цена за документ - лучший вариант для клиентов, документы которых содержат большое количество однородно организованных данных, например содержащихся в таблицах. Если Ваши документы квалифицируются таковыми нашими экспертами, Вы можете сохранить до 30% по сравнению с первым планом оплаты.
3. Месячная подписка - для клиентов, которые заинтересованы в долгосрочных отношениях с нами. Наши представители оценят Ваши потребности и предложат справедливую цену за обработку Ваших документов.

Технология

Основой нашей техгологии является DEP (Data Extraction Platform) разработанная Evolutionary Software и используемая сегодня несколькими ведущими мировыми поставщиками данных. Эта система автоматизирует от 60 до 90% работы по извлечению данных и обеспечивает исходные установки и инструменты для финальной ручной проверки и корректировки результатов.

Коротко DEP - это совокупность уникальных решений в областях Text Mining и Data Processing поддержанная к тому же базой знаний в форме семантической онтологии. Модели отражают семантические и форматные отношения между элементами документов.

Еще один важный элемент нашего решения - команда проверки и очистки результатов. Мы используем высоко образованных экспертов в каждой прикладной области для проверки и окончательной чистки результатов после автоматического выделения данных.

Документооборот

Ваш персонал не должен будет изучать какую-либо сложную технологию для того чтобы получить данные из документов. Безусловно, некоторая работа нужна в начальной стадии, когда Вам нужно будет решить для себя и описать нашему представителю какие именно элементы данных Вы хотите извлечь из документов. Для этого Вы можете например просто взять парочку документов, распечатать их, отметить маркером те элементы данных, которые Вам нужны, сосканировать результат и прислать нам.


После этого Вам нужно будет просто копировать исходные документы на тот FTP site, который Вы выберете. Мы возьмем документы, обработаем их и положим результат на тот же FTP site. Или еще проще - email документ нашему представителю и мы вернем Вам результат тоже с помощью email.

Запрос на Извлечение Даных

Это вообщем единственная часть процесса, которая требует активного участия клиента. Мы не в состоянии решить за клиента какие именно данные извлекать из документов и как назвать каждый элемент извлеченных данных. Исходные требования к извлечению данных проходят несколько итераций. Прежде всего клиент размечает вручную несколько документов как в примере внизу:


После того как примеры разметки посланы нашему представителю мы попытаемся разработать шаблон для извлечения данных который по сути представляет из себя древовиную структуру которая служит контейнером для хранения извлеченных данных.


Затем мы сделаем пробные извлечения и пошлем их клиенту для исправления или подтверждения. После нескольких подобных итераций мы разработаем модели для автоматического извлечения данных и начнем обработку данных.

Форматы результатов

Мы предлагаем несколько форматов для представления результатов обработки. Это прежде всего наиболее распространенный и ориентированный на последующее применение результатов - XML содержащий поименованные элементы выделенных данных как в структуре показанной ниже :



Подобный XML удобен для последующей автоматизированной обработки:

  • Размещения результатов обработки в базе данных
  • Создания интерактивных форм для веб-страниц
  • Обмена данными между программными системами


    Важным свойством нашей технологии извлечения данных является сохранение связи каждого элемента извлеченных данных с соответствуюцим ему местом в исходном документе. Это позволяет нам не только показать пользователю результат извлечения но и место в документе в котором оно было найдено. Таким образом пользователь не обязан слепо верить результатам извлечения данных, он может перепроверить каждый найденный результат просто кликнув на нем в одном из демонстрационных форматов.

    Мы предлагаем 2 демонстрационных формата, которые могут быть использованы в дополнение к XML структуре.

    Первый это PDF подобный показанному ниже. Левая панель содержит результирующее дерево с извлеченными данными в то время как правая панель представляет исходный документ. Пользователь может просто кликнуть на любом извлеченном значении в левой анели и правая панель прокрутится до места извлечения данных. Кроме того мы подсветим место извлечения данных в правой панели для облегчения визуального распознавания.



    Вторая демонстрационная форма с похожим поведением это HTML. Мы ее разработали как альтернативу PDF для пользователей, у которых на компьютере не установлен Adobe Acrobat. Она выглядит следующим образом:



    Здесь также пользователь может кликнуть на извлеченном значении в левой панели и правые панели прокрутятся до соответствующего места в правой панели и подсветят данные в тексте исходного документа.

    Мы не ограничиваемся описанными выше выходными форматами и можем добавить дополнительный фомат по запросу пользователя.

    Как сделать первый шаг

    Просто опишите Вашу потребность в извлечении данных нашему представителю: sales@ev-soft.com


  • webmaster@ev-soft.com
    Copyright © 2000
    Evolutionary Software, Inc.