Публикация читателя iBusiness.ru

BIG DATA на государственной службе

13 сентября 2012, в 12:47

Госсектор накапливает огромные объемы информации, но при этом испытывает очевидные трудности с ее хранением и анализом. Технологии Big Data позволяют повысить эффективность деятельности министерств и ведомств, улучшить процессы прогнозирования и принятия решений.

Ни одна коммерческая структура в мире не накопила столько данных, сколько государственные учреждения и институты власти. Россия в данном случае — не исключение. Более 70% этой информации не структурировано и хранится в виде текстов и разного рода документов — планов, заявлений, отчетов, жалоб, предложений… Объем этих данных непрерывно нарастает. Граждане постоянно тем или иным образом контактируют с госструктурами, внутренний и межведомственный документооборот министерств и ведомств содержит огромные массивы информации, реализуются запланированные государством программы формирования электронного правительства, оцифровки исторической информации и другие. «С точки зрения текущих объемов и роста данных приблизительный рост структурированной информации может составить около 50% в год, — отмечает Максим Исаев, руководитель практики специализированных программно-аппаратных комплексов компании IBS. — Что касается неструктурированных данных, то говорить об их темпах роста в России пока тяжело. По миру цифра колеблется около 30%».


Автор: Елена Некрасова. Впервые опубликовано в журнале «CIO: руководитель информационной службы» № 9 за 2012 год.


Перед госсектором сегодня стоят задачи повышения прозрачности, производительности работы госучреждений. Поэтому он нуждается в построении информационных систем, позволяющих быстро, открыто и продуктивно взаимодействовать с населением, способствовать повышению финансовой эффективности, сокращению затрат времени на обслуживание, повышению спроса населения на услуги, устранению коррупции, увеличению прогнозируемости, снижению издержек. Существующие технологии уже не могут решить задачи такого рода. Данные дублируются и приумножаются, их обработка требует все больше ресурсов. Систематизировать эту информацию, работать с архивными данными, да и просто находить нужную информацию становится все сложнее. Без технологий «больших данных» информация, поступающая в неструктурированном виде, подвергалась специальной обработке для помещения ее в аналитическое хранилище для последующего анализа. Это подчас значительно замедляло цикл анализа информации и увеличивало затраты на хранение и обработку данных.

В итоге в ближайшее время органы государственной власти в России столкнутся с проблемой «больших данных» лицом к лицу — и потребуется применение принципиально новых технологий. Решения и технологии Big Data уже фигурируют при обсуждении планов работы государственных органов.

«Большие решения» для больших объемов

С точки зрения аппаратно-программных решений организациям госсектора потребуются платформы для работы с данными очень больших объемов, обладающие высокой скоростью генерации и поступления информации.

— Такая платформа должна предоставлять организации возможности недорогого хранения всех видов информации и ее анализа, причем речь может идти как об уже сохраненных данных, так и об анализе и принятии решений по информации, поступающей в организацию в режиме реального времени, — говорит Сергей Лихарев, руководитель направления по продажам решений для бизнес-аналитики компании IBM в России и СНГ.

Например, оптимизированный программно-аппаратный комплекс Oracle Big Data Appliance позволяет хранить и обрабатывать до 216 терабайт данных и, соответственно, может предоставлять преимущества заказчикам, имеющим как минимум несколько десятков терабайт. Комплекс Oracle Big Data Appliance специально спроектирован, чтобы помочь заказчикам быстро запустить масштабируемую систему высокой доступности для управления большими массивами данных, создать высокопроизводительную платформу для систематизации, обработки и анализа „больших данных» в среде Hadoop. Они также могут использовать статистические приложения на языке R с источниками первичных данных и контролировать ИТ-затраты благодаря предварительной интеграции всех аппаратных и программных компонентов в единое решение для „больших данных», которое дополняет корпоративные хранилища.

Госсектор нуждается в решениях Big Data, позволяющих быстро, открыто и эффективно взаимодействовать с населением

Основное требование к накоплению информации — обеспечение минимальной стоимости владения одной ее единицей при сохранении требуемой производительности. Максим Исаев полагает, что госструктуры должны обращать внимание на технологии, которые используются в коммерческом секторе, так как здесь раньше происходит адаптация подобных систем: «Такие технологии, как Hadoop или MapReduce, получившие развитие в коммерции, будут играть ключевую роль и для госсектора. Технологии, связанные с распределенным хранением информации для уменьшения стоимости владения, являются основным критическим моментом в системе накопления. Я бы объединил накопление и хранение. Что касается решений по обработке больших данных, то они должны быть адаптированы под работу с распределенными системами, когда информация может храниться не только в выделенном месте — локально на сервере, где она обрабатывается, — но и распределяться по многим серверам, в том числе по географическим зонам».

Основную выгоду от использования «больших данных» может принести статистический инструментарий, который выявляет некие закономерности, позволяет строить прогнозы и находить скрытые связи между объектами данных. Этот инструментарий должен быть адаптирован под работу с большими объемами данных, подчеркивает Максим Исаев. На сегодня большинство вендоров идет по пути обработки этих данных в оперативной памяти. Получается быстро и довольно дешево; это позволяет обеспечить оптимальную производительность и стоимость. Историческая же информация хранится на дисковых массивах или в распределенной среде, что гарантирует ее сохранность в случае сбоя. Другое требование к подобного рода системам в госорганах — они должны обеспечивать отказоустойчивость.

Илья Катчан, директор по работе с государственными компаниями SAS в России и СНГ, отмечает, что для эффективной работы с «большими данными» нужно реализовать следующие возможности анализа:

категоризация данных — разбиение всех документов по иерархически упорядоченным темам, датам и т. д. для упрощения поиска информации и последующего анализа;

извлечение фактов — автоматический поиск уникальной информации, содержащейся в документе;

поиск информации — во внутреннем и сетевых ресурсах по дате, ключевым словам, сфере деятельности госструктуры, а также по конкретным известным адресам;

создание онтологии базы знаний — процессинг области знаний, описанной в документах;

анализ эмоциональной окраски текстов — для мониторинга мнений по той или иной теме;

автоматическое извлечение ключевых тематических направлений в текстах — для быстрого понимания обсуждаемых тенденций;

объединение структурированной и неструктурированной информации — прогнозирование динамики упоминаемости той или иной темы, отношения к ней, выявление закономерностей между упоминаемостью закона, проекта, услуги и успешностью и т. д.

По данным отчета «The Big Data Gap» от MeriTalk, правительственные агентства США сохраняют в год 1,6 петабайта данных. Для сравнения: 1 петабайт данных равен примерно 20 миллионам ящиков с четырьмя полками каждый, заполненных текстовыми документами. По оценкам авторов отчета, через пару лет цифра сохраняемых данных достигнет 2,6 петабайта в год

Чем больше информации собрано, тем выше точность получаемых результатов анализа. Однако эксперты SAS обращают внимание на два нюанса: во-первых, эти данные нужно агрегировать, а во-вторых, для сбора такой информации необходимы полномочия. «Громкий проект госсектора СМЭВ здесь не помощник, — считает Илья Катчан. — Так как в его рамках предполагается обмен между министерствами и ведомствами лишь отдельными запросами. Силовые структуры уже давно озаботились этой проблемой и получили (без широкой огласки) подобные полномочия, пусть и в ограниченном объеме. На этих данных уже пытаются построить узкоспециализированные решения».

Что касается конкретных прикладных решений, то многое зависит от характера задачи. Например, сейчас перед госсектором остро стоит проблема мошенничества, особенно в налоговой и пенсионной сферах.

— Чтобы эффективно работать с этой проблемой, нужны решения класса «антифрод», нацеленные на выявление подозрительных операций, групп лиц и мошеннических схем, — рассказывает Илья Катчан. — Использование таких систем подразумевает сбор разнородной информации об объектах исследований: это налоговые данные, перемещение по стране и за границей, имущество в собственности, социальные связи (родственники, одноклассники, сослуживцы, соседи, сокамерники), прописка, а также участие в коммерческой деятельности, пенсионные отчисления, банковские переводы и так далее.

Система анализа социальных связей (socialnetworkanalytics) помогает увидеть взаимосвязи между разными людьми, понять, общается ли человек с уже известными мошенниками. Система интеллектуального анализа текстовой информации (textmining) позволяет работать с текстовым интернет-контентом, в том числе с сообщениями пользователей в соцсетях и блогах, и оценивать настроения и намерения людей. Методы прогнозной аналитики дают возможность выявлять случаи мошенничества со стороны конкретных граждан, организаций и групп. В единой связке все эти решения работают наиболее эффективно, повышая точность анализа и помогая при проведении расследований.

С точки зрения организационных изменений организациям госсектора необходимо обратить внимание на вопросы владения данными. Сергей Лихарев отмечает: в отличие от компаний коммерческого сектора, где явно видна тенденция смещения фокуса от ИТ в сторону бизнес-подразделений, в госсекторе по-прежнему данными владеет ИТ-отдел, что затрудняет процессы исследования возможностей для анализа и получение новых знаний из имеющихся информационных активов.

Люди и термины

Основной проблемой, связанной с построением систем сбора, обработки, хранения и использования «больших данных», которые существуют сегодня у российского госсектора, эксперты называют новизну этого понятия. Люди зачастую не осознают, что такое «большие данные» и где их использовать. «Хотя под Big Data обычно понимаются многие терабайты и даже петабайты информации, говорить о том, что они начинаются с какого-то объема, наверно, не стоит, — объясняет эксперт Oracle. — Существует определенный набор технологий, которые принято относить к Big Data (Hadoop, NoSQL СУБД и другие). Big Data появляются там, где использование этих технологий становится более оправданным по сравнению с традиционными подходами. Например, существуют вычислительно емкие задачи, которые могут не требовать терабайтов данных, но при этом для их решения разумнее использовать, скажем, Hadoop».

Другой серьезной проблемой Максим Исаев называет человеческий фактор:

— Должно пройти некоторое время, чтобы произошло накопление опыта по работе с «большими данными», возникло и устоялось понимание концепций построения систем Big Data, произошло встраивание решений в существующую инфраструктуру. Возьмем для примера вопросы защиты персональных данных. Госструктуры имеют дело с конфиденциальной информацией населения, и обеспечение ее безопасности — очень серьезный вопрос. Важным пунктом является понимание, как использовать эти данные, так как простой сбор информации не несет в себе смысла.

Основную выгоду от использования «больших данных» в госсекторе может принести аналитический инструментарий, позволяющий выявлять закономерности

Большое препятствие на пути внедрения Big Data в госсекторе состоит в том, что для России характерно использование данных на нескольких языках, включая русский, татарский, башкирский, украинский, но компании редко могут предоставить программное обеспечение с поддержкой многих языков.

Повысить качество госуслуг

«Большие данные» — это кладезь информации, помогающей решать самые разнообразные задачи. Реализовав различные возможности их анализа, госструктуры могут находить новые взаимосвязи, отслеживать новые тенденции на стадии их становления и прогнозировать дальнейшее развитие ситуации.

Повышение эффективности госсектора за счет всестороннего анализа и оптимизации его деятельности — основная движущая сила при старте и реализации проектов «больших данных». «Если будет налажена эффективная работа с ними, то всех нас ждут положительные изменения в сфере безопасности, — полагает Илья Катчан. — Быстрая обработка больших объемов данных поможет в проведении оперативных расследований, мониторинге настроений в обществе, в пресечении правонарушений еще на этапе их подготовки. Качество госуслуг повысится, поскольку у ведомств появится возможность сразу анализировать отклики, вносить соответствующие улучшения в свою работу, быстро распределять задачи по ответственным, получать комплексную информацию о гражданах, то есть работать более оперативно и принимать более взвешенные решения. Государственные учреждения смогут перейти от традиционной «рукописной» бюрократии к сбору внутренних данных в структурированном виде, что сократит число неизбежных ошибок и случаев утери информации».

Помимо очевидных задач повышения общественной и государственной безопасности, от использования «больших данных» в госсекторе ожидаются ответы на вопросы о том, какие социальные услуги являются наиболее действенными, достигают ли социальные льготы и услуги своих целевых групп, насколько эффективно используется энергия в зданиях государственных учреждений.

Илья Катчан перечислил основные низкоуровневые задачи, решаемые средствами мониторинга и интеллектуального текстового анализа.

Мониторинг Интернета и документов по заданному списку категорий:

мониторинг Интернета и внутренних документов по заданным темам, мониторинг динамики упоминаемости заданных тем;

систематизация новостей, сообщений, писем и иных документов по темам. Организация работы с темами по иерархии;

мониторинг упоминания конкретных людей, брендов и так далее: например, конкретных политических деятелей — для их PR-служб;

обнаружение планирующихся событий на основе обсуждений в Интернете. Например, по темам «насилие» и «национализм» наблюдается рост сообщений. Причем встречаются следующие факты — «место»: «Манежная площадь», «дата»: «10.11.2010», «время»: «19», «вечер».

Организация интеллектуальной работы с терминами:

организация сайта информационной кампании.

Анализ мнений:

мониторинг динамики позитива/негатива по заданным объектам и их характеристикам в Интернете и внутренних документах. Например, по объекту «Партия ЛДПР» за прошедшую неделю было 46 позитивных фраз и 76 — негативных. Причем по характеристике «Законотворчество» был в основном негатив, а по характеристике «Владимир Жириновский» — позитив. Или по объекту «бензин» зафиксировано 14 позитивных фраз и 108 — негативных. По характеристике «Цены на топливо» был в основном негатив, а по характеристике «Поездки» — позитив;

анализ отзывов по работе государственных институтов;

выявление категорий, с которыми был связан основной позитив/негатив. Например, в целом по стране основной негатив за август 2011-го был связан с категориями «Отопление» и «Погода».

Интеллектуальный анализ текста:

выявление ключевых тем в потоке жалоб от клиентов или от населения; выявление детальных факторов, с которыми были связаны упоминания обсуждаемых тем;

автоматическое распределение корреспонденции по адресатам (по темам, департаментам, министерствам);

прогнозирование экономических, социальных, политических показателей на основе негатива/позитива в Интернете;

выявление ключевых факторов и прогнозирование наступления социально значимых регулярных событий на основе сочетания социальных и экономических показателей и информации в Интернете. Например, прогнозирование всплеска недовольства населения, массовых протестов.

Эффективное государство

Любое министерство или ведомство оперирует огромным массивом данных, даже если речь идет об отдельном регионе, не говоря уже о стране в целом. Поэтому технологии «больших данных» могут использоваться при решении оперативных задач любого ведомства.

Согласно исследованиям Gartner, рост объема существующей в мире информации составляет 59% и продолжает увеличиваться. IDC заявляет о том, что объем цифровых записей превысит в этом году 1,2 млн зеттабайт (1 Збайт — 1 021 эксабайт), а в течение следующих 10 лет он вырастет в 44 раза

Эксперт Oracle приводит примеры зарубежного опыта использования технологий Big Data в работе государственных организаций разных стран.

В Сингапуре на улицах нет полиции, но везде стоят камеры, и в случае возникновения инцидента службы моментально на него реагируют. Кроме того, есть возможность всегда вернуться к данной записи и вновь ее просмотреть. В США в госсекторе инвестировано около 200 миллионов долларов на развитие технологий «больших данных», что, безусловно, является показателем высокого интереса к Big Data. Основными направлениями инвестиций названы Национальный научный фонд, Национальный институт здравоохранения, Пентагон и Министерство энергетики.

Интересным примером использования решений Big Data является Департамент специальных расследований Таиланда. Эта организация, созданная Министерством юстиции Таиланда в 2002 году, занимается расследованием серьезных преступлений. Объем информации, которой оперирует ведомство, колоссален: это миллионы записей, собранных из разных источников и хранящихся в структурированных и неструктурированных форматах, таких как документы, изображения, видео. Обработка и поиск необходимых данных в таком массиве порой занимали очень много времени, особенно в условиях, когда невозможно было задать четкие параметры для поиска. Это сильно влияло на сроки раскрытия преступлений. Для преодоления этой проблемы департамент внедрил решение Microsoft для хранения и управления большими данными на основе Microsoft SQL Server 2012 и программного обеспечения Apache Hadoop. По словам представителей ведомства, время обработки и анализа информации по ряду дел сократилось с двух лет до двух недель.

В Канаде, чтобы сформировать программы развития здравоохранения с использованием всех имеющихся данных, нужно было агрегировать, подготовить и проанализировать данные, накопленные за семнадцать лет. В результате внедрения аналитического решения SAS государство смогло исследовать факторы, влияющие на заболеваемость населения, провести их статистический анализ, оценить качество оказываемой медицинской помощи и использовать полученные результаты для разработки и реализации инициатив по развитию системы здравоохранения.

Налоговая служба США с помощью подобных решений повышает уровень собираемости налогов, Корейская таможня — выявляет нелегальный экспорт и импорт, а Пенсионный департамент Великобритании — граждан, которые неправомерно получают различные социальные льготы и пособия. Очень широк спектр задач, решаемых в правоохранительной сфере: от перекрытия каналов транспортировки наркотиков и предотвращения терактов до поиска пропавших детей; при этом может использоваться анализ текстовой информации из соцсетей и различных форумов, где зафиксировано участие педофилов, анализ базы инцидентов, самой разнообразной агрегированной информации о знакомых семьи, об освобожденных преступниках и так далее.

«Большие данные» могут применяться при решении экономических задач — например, для прогнозирования уровня безработицы на основе анализа настроений граждан, для прогнозирования доходов госбюджета после принятия того или иного закона.

В России применение технологий «больших данных» в госсекторе пока находится на стадии исследования их потенциала для повышения эффективности организаций. Однако ряд долгосрочных проектов уже стартовал. Так, IBS реализовала инфраструктурную часть в проекте в Федеральной налоговой службе по внедрению автоматизированной информационной системы «Налог 3». Сейчас выполняется адаптация транзакционных систем для работы большого количества пользователей с личной информацией, а также с той, которую о них собирают различные ведомства для взаимодействия с госструктурами. В дальнейшем предполагается анализировать эту информацию для потребностей ведомства. IBS ведет проекты в Федеральном казначействе, которое решает задачи анализа плановых и фактических показателей исполнения бюджетов территориальными органами и органами госвласти. Есть проект в Минздраве, который посвящен сбору информации и реструктуризации информационных систем ведомства для решения задач, поставленных правительством. Центробанк тоже приступил к использованию технологий Big Data — например, для анализа схем, по которым банки осуществляют различные махинации.

Добро пожаловать в Пьемонт!

В итальянском городе Пьемонте, когда возникла необходимость обеспечить информационную поддержку программы привлечения туристов, власти столкнулись с отсутствием возможности проанализировать текстовые описания объектов региона. Внедрив решение SAS для интеллектуального анализа текста, городские власти получили понимание общей ситуации с туристической привлекательностью региона в разрезе различных организаций (рестораны, кафе, музеи…). Были выделены основные кластеры культурно-досуговых предприятий для подготовки целевых предложений, рекламы и прочих маркетинговых активностей региона.

Путешествие во времени

Одним из проектов, который вряд ли был бы реализован без «больших данных» и «облачных» вычислений, является ChronoZoom 2.0 — совместная разработка Microsoft Research Connections, Калифорнийского университета в Беркли, Московского государственного университета имени М. В. Ломоносова и фонда Outercurve Foundation. Это уникальная визуализированная хронология, которая позволяет «путешествовать» по всем историческим эпохам и событиям — от Большого взрыва и до наших дней. Пользователь может задавать любой масштаб детализации, получая информацию как о целых столетиях, так и о десятилетиях. В качестве платформы ChronoZoom используется Windows Azure. Программное обеспечение для отображения данных и работы с ними разработали в МГУ. В частности, команда университета создала веб–приложение на базе HTML 5 для динамического показа больших объемов данных через интернет-браузер.

Комментарии

Вы должны зарегистрироваться или войти под своим аккаунтом, чтобы написать комментарий
Без комментариев

Также читайте

Это интересно

Четыре управленческих установки, которые мешают компании повзрослеть

Стоит знать

Как организовать онлайн-торговлю с минимальным бюджетом и без лишней нервотрепки

Есть мнение

«Холодные звонки» — одна из лучших школ жизни в комфортных условиях

Рынок

Vein Technologies – золотой партнер чемпиона Швейцарии «Pallavolo Lugano»