1. Главная
  2. Инновационные лаборатории
  3. Проекты, над которыми мы работаем
  4. SentiMine
sentimine data from refinitiv labs

Проект SentiMine

Извлечение тематических данных о динамике акций из неструктурированного контента

Комплексный инструмент для поиска в неструктурированном контенте, позволяющий выявлять ключевые факторы динамики акций и изменения прогнозов с течением времени.

Проблемы и возможности

Покупатели тратят миллионы трудочасов на то, чтобы извлечь информацию из разрозненных текстов для управления активами и принятия инвестиционных решений.

В качестве иллюстрации данной проблемы можно привести деятельность аналитика по акциям, работающего на фирму-покупателя и изучающего данные об Amazon.

За 90 дней аналитик обычно получает свыше 200 отчетов об исследованиях Amazon, при этом каждый отчет содержит от 2 до 60 страниц. Кроме того, аналитик также обрабатывает более 50 расшифровок и отчетов по компаниям, а также сотни новостных статей и электронных писем с упоминанием Amazon.

Это всего лишь одна из 50 компаний, акции которых необходимо проанализировать. Очевидно, что такой объем информации невозможно обработать в одиночку.

center
02:15

  

Существует объективная потребность в простой и быстрой обработке неструктурированного текстового контента и извлечении аналитики.

Решение

Подразделение Refinitiv Labs создало решение SentiMine, с помощью которого клиенты могут максимально эффективно использовать неструктурированный контент, а также сократить время и сопутствующие издержки на затратные исследования.

SentiMine сочетает обработку естественного языка, анализ настроений и глубокое обучение для быстрого и эффективного получения аналитических данных из тысяч неструктурированных исследовательских отчетов и расшифровок компаний.

Компоненты аналитики:

  • Потенциальные факторы динамики акций
  • Изменения прогнозов аналитиков (или настроений) с течением времени и в различных тематиках отчетов об исследованиях акций
  • Изменения в прогнозах аналитиков и компаний с течением времени по различным темам и нескольким расшифровкам
  • Противоположные точки зрения аналитиков в сравнении с общепринятым мнением

Подразделение Refinitiv Labs составило онтологию потенциальных факторов динамики акций, на которые обращают внимание аналитики при обработке отчетов об исследованиях акций и расшифровок. Такие потенциальные факторы называются темами. Модель машинного обучения с учителем выявляет ключевые темы в неструктурированном тексте. 

В настоящее время механизм SentiMine учитывает 110 тем, оказывающих влияние на все виды акций. Каждая тема подпадает под одну из семи категорий: отчетность, факторы развития бизнеса, оценка стоимости, экономика, изменения в руководстве, основные риски и проблемы ESG. 

Также рассматриваются 40 тем по различным отраслям бизнеса, в том числе финансы, розничная торговля, телекоммуникации и технологии. 

[SentiMine] — это просто невероятно! Еще несколько недель назад мы изучали представленную презентацию, а сейчас решение уже готово. Интерфейс невероятно удобен в работе!

SentiMine в действии

Прототип SentiMine включает свыше 907 тикеров / 478 акций, а также исследовательские отчеты и расшифровки за 3 года с 2017 г. по настоящее время. Новые исследовательские отчеты и расшифровки добавляются ежедневно.

Состав прототипа: 

  • Тематический обзор с сортировкой сотен отчетов и расшифровок по основным темам и возможностью ознакомиться с прогнозом (настроением) аналитика или компании по каждой теме
  • Функция глубокого анализа, с помощью которой можно извлечь все предложения из отчета или расшифровки с упоминанием соответствующей темы для более полного понимания прогноза аналитика
  • Отслеживание изменений прогнозов: анализ прогноза аналитика или компании по определенной теме с течением времени, а также сопоставление прогноза с ценой на фондовом рынке и средней прогнозной ценой
  • Возможность переключаться между различными видами контента (в данном случае между отчетами об исследовании акций и расшифровками)
  • Сводка по акциям на основе данных, полученных из исследовательских отчетов и расшифровок, а также анализа сопоставимых компаний

Learn-it-all Labs

Вводный курс в обработку естественного языка для рынков капитала

Ознакомьтесь с 30-минутным обзором Refinitiv Labs, в котором мы расскажем, как мы применяем инновационные технологии глубокого обучения и обработки естественного языка для анализа неструктурированных данных.

Вы увидите работу SentiMine в действии и узнаете, как обработка естественного языка позволяет выявлять индикаторы динамики акций из неструктурированного контента, такого как исследовательские отчеты, расшифровки, официальные документы, новости и публикации в социальных сетях.

Стратегия сотрудничества

При разработке решений для актуальных проблем на финансовых рынках Refinitiv Labs использует стратегию сотрудничества и ориентации на клиента, объединяя обратную связь от клиентов, собственные комплексные данные и первоклассные партнерские технологии.

Сотрудничество с клиентами:

  • Постановка общих целей для того, чтобы повысить ценность решения SentiMine для клиентов
  • Учет обратной связи, полученной от клиентов, на каждом этапе процесса разработки 
  • Оценка концепции с клиентами и заинтересованными сторонами Refinitiv
  • Поддержание контакта с пользователями Refinitiv, заинтересованными в применении SentiMine

Технологии с открытым кодом и от партнеров Refinitiv:

  • Amazon Simple Storage Service (S3)
  • Сервис запросов Amazon Athena
  • Библиотека машинного обучения PyTorch
  • Платформа машинного обучения TensorFlow
  • Аналитический механизм Apache Spark
  • Машинное обучение полного цикла Mlflow 
  • Реляционная база данных PostgreSQL
  • React: JavaScript-библиотека для создания пользовательских интерфейсов
  • Node: среда выполнения JavaScript 
  • Python 

Перспективы

Graphic illustrating a black arrow moving inside a blue box

Цели Refinitiv Labs на будущее

Разрабатывайте

  • Пользовательский интерфейс для получения расшифровок обсуждений прибылей и убытков компании

Моделирование

  • Уточнение модели и тестирование для проверки качества
  • Применение модели к другим классам неструктурированных данных, таким как расшифровки обсуждений прибылей и убытков

Взаимодействие с клиентами

  • Оценка интерфейса для новой функции получения расшифровок на основании отзывов пользователей
  • Проверка концепции совместно с клиентами