Новую технологию разработали на факультете географии и геоинформационных технологий Вышки. В ядре алгоритма — генеративная языковая модель (GPT), которая извлекает из новостных сообщений и структурирует информацию о том, что, где и когда произошло, какой ущерб нанесен и какие меры принимались. Географы Вышки создали новую технологию при выполнении проекта «Лучшие практики адаптации к природно-климатическим рискам в России», получившего флагманский грант ВШЭ «ИИ-технологии для человека» в 2024 году. В 2025 году разработка географов Вышки стала финалистом международного конкурса “AI for Good: Innovate for impact” и в июле будет представлена на международном cаммите ООН в Женеве.
Созданный географами ВШЭ алгоритм обрабатывает более 1000 текстов в час. В пилотном применении удалось автоматически извлечь и обработать более 50 тысяч новостных сообщений в 8 миллионах исходных текстов с новостных порталов, региональных сайтов МЧС и из пабликов органов власти в социальных сетях. Материалы освещали последствия или предупреждали о почти 30 тысячах событий, связанных с опасными и неблагоприятными природными явлениями.
«Крупные природные катастрофы ожидаемо получают в медиаресурсах больше внимания. Например, более 400 публикаций, которые прошли через наш алгоритм, были посвящены катастрофическому наводнению в Курганской, Оренбургской и Томской областях весной 2024 года. Но нам был важен именно массовый охват медиаисточников, чтобы собрать сведения и о локальных проблемах. Ведение многих похожих баз, а также попадание в статистику МЧС подразумевает преодоление некоторой планки ущерба. Если дорогу каждый год засыпает лавинами, но нет, условно, раздавленных машин, эта проблема может не фигурировать в статистике и отчетах, лавинную защиту не финансируют и не прописывают в KPI. Сейчас регионы России обновляют свои планы адаптации к изменениям климата, и это правильный момент, чтобы собрать фактический материал про себя, чтобы эффективно расставить приоритеты», — рассказала соавтор разработки Анна Деркачёва, научный сотрудник риск-офиса Центра геоданных факультета географии и геоинформационных технологий НИУ ВШЭ.
Результат работы генеративной языковой модели по формированию базы данных об опасных природных явлениях подвергается дополнительной автоматизированной проверке. После нее затронутые территории наносятся на карту, а тексты об одном и том же происшествии группируются.
«Новостные публикации уже десятилетиями используются для сбора информации о чрезвычайных ситуациях. Например, так ведется общепризнанная и долго действующая международная база катастроф EM-DAT. Но поиск и обработка новостей вручную делают создание таких баз трудо- и времяемкой задачей, поэтому они зачастую освещают только крупные события либо посвящены небольшим территориям. В нашу базу данных попадают разномасштабные опасные природные явления. На сегодняшний день база содержит несколько десятков тысяч публикаций. Кстати, в силу специфики используемых источников по ней можно изучать не только опасные природные процессы, но и социальные процессы: например, ярко проявился тренд цифровизации государственных структур», — пояснила Анна Деркачёва.
Разработчики технологии создания базы данных об опасных природных явлениях: сотрудники факультета географии и геоинформационных технологий НИУ ВШЭ Анна Деркачева, Мария Сакиркина, Глеб Краев, Татьяна Анискина и Рената Зигангирова. Полезной для проекта также стала курсовая работа студентки факультета географии НИУ ВШЭ Марии Диденко, выполненная на предоставленных данных.
НИУ ВШЭ
Созданный географами ВШЭ алгоритм обрабатывает более 1000 текстов в час. В пилотном применении удалось автоматически извлечь и обработать более 50 тысяч новостных сообщений в 8 миллионах исходных текстов с новостных порталов, региональных сайтов МЧС и из пабликов органов власти в социальных сетях. Материалы освещали последствия или предупреждали о почти 30 тысячах событий, связанных с опасными и неблагоприятными природными явлениями.
«Крупные природные катастрофы ожидаемо получают в медиаресурсах больше внимания. Например, более 400 публикаций, которые прошли через наш алгоритм, были посвящены катастрофическому наводнению в Курганской, Оренбургской и Томской областях весной 2024 года. Но нам был важен именно массовый охват медиаисточников, чтобы собрать сведения и о локальных проблемах. Ведение многих похожих баз, а также попадание в статистику МЧС подразумевает преодоление некоторой планки ущерба. Если дорогу каждый год засыпает лавинами, но нет, условно, раздавленных машин, эта проблема может не фигурировать в статистике и отчетах, лавинную защиту не финансируют и не прописывают в KPI. Сейчас регионы России обновляют свои планы адаптации к изменениям климата, и это правильный момент, чтобы собрать фактический материал про себя, чтобы эффективно расставить приоритеты», — рассказала соавтор разработки Анна Деркачёва, научный сотрудник риск-офиса Центра геоданных факультета географии и геоинформационных технологий НИУ ВШЭ.
Результат работы генеративной языковой модели по формированию базы данных об опасных природных явлениях подвергается дополнительной автоматизированной проверке. После нее затронутые территории наносятся на карту, а тексты об одном и том же происшествии группируются.
«Новостные публикации уже десятилетиями используются для сбора информации о чрезвычайных ситуациях. Например, так ведется общепризнанная и долго действующая международная база катастроф EM-DAT. Но поиск и обработка новостей вручную делают создание таких баз трудо- и времяемкой задачей, поэтому они зачастую освещают только крупные события либо посвящены небольшим территориям. В нашу базу данных попадают разномасштабные опасные природные явления. На сегодняшний день база содержит несколько десятков тысяч публикаций. Кстати, в силу специфики используемых источников по ней можно изучать не только опасные природные процессы, но и социальные процессы: например, ярко проявился тренд цифровизации государственных структур», — пояснила Анна Деркачёва.
Разработчики технологии создания базы данных об опасных природных явлениях: сотрудники факультета географии и геоинформационных технологий НИУ ВШЭ Анна Деркачева, Мария Сакиркина, Глеб Краев, Татьяна Анискина и Рената Зигангирова. Полезной для проекта также стала курсовая работа студентки факультета географии НИУ ВШЭ Марии Диденко, выполненная на предоставленных данных.
НИУ ВШЭ