Проект SentiMine
Извлечение тематических данных о динамике акций из неструктурированного контента
Комплексный инструмент для поиска в неструктурированном контенте, позволяющий выявлять ключевые факторы динамики акций и изменения прогнозов с течением времени.
Проблемы и возможности
Покупатели тратят миллионы трудочасов на то, чтобы извлечь информацию из разрозненных текстов для управления активами и принятия инвестиционных решений.
В качестве иллюстрации данной проблемы можно привести деятельность аналитика по акциям, работающего на фирму-покупателя и изучающего данные об Amazon.
За 90 дней аналитик обычно получает свыше 200 отчетов об исследованиях Amazon, при этом каждый отчет содержит от 2 до 60 страниц. Кроме того, аналитик также обрабатывает более 50 расшифровок и отчетов по компаниям, а также сотни новостных статей и электронных писем с упоминанием Amazon.
Это всего лишь одна из 50 компаний, акции которых необходимо проанализировать. Очевидно, что такой объем информации невозможно обработать в одиночку.

Существует объективная потребность в простой и быстрой обработке неструктурированного текстового контента и извлечении аналитики.
Решение
Подразделение Refinitiv Labs создало решение SentiMine, с помощью которого клиенты могут максимально эффективно использовать неструктурированный контент, а также сократить время и сопутствующие издержки на затратные исследования.
SentiMine сочетает обработку естественного языка, анализ настроений и глубокое обучение для быстрого и эффективного получения аналитических данных из тысяч неструктурированных исследовательских отчетов и расшифровок компаний.
Компоненты аналитики:
- Потенциальные факторы динамики акций
- Изменения прогнозов аналитиков (или настроений) с течением времени и в различных тематиках отчетов об исследованиях акций
- Изменения в прогнозах аналитиков и компаний с течением времени по различным темам и нескольким расшифровкам
- Противоположные точки зрения аналитиков в сравнении с общепринятым мнением
Подразделение Refinitiv Labs составило онтологию потенциальных факторов динамики акций, на которые обращают внимание аналитики при обработке отчетов об исследованиях акций и расшифровок. Такие потенциальные факторы называются темами. Модель машинного обучения с учителем выявляет ключевые темы в неструктурированном тексте.
В настоящее время механизм SentiMine учитывает 110 тем, оказывающих влияние на все виды акций. Каждая тема подпадает под одну из семи категорий: отчетность, факторы развития бизнеса, оценка стоимости, экономика, изменения в руководстве, основные риски и проблемы ESG.
Также рассматриваются 40 тем по различным отраслям бизнеса, в том числе финансы, розничная торговля, телекоммуникации и технологии.
[SentiMine] — это просто невероятно! Еще несколько недель назад мы изучали представленную презентацию, а сейчас решение уже готово. Интерфейс невероятно удобен в работе!
SentiMine в действии
Прототип SentiMine включает свыше 907 тикеров / 478 акций, а также исследовательские отчеты и расшифровки за 3 года с 2017 г. по настоящее время. Новые исследовательские отчеты и расшифровки добавляются ежедневно.
Состав прототипа:
- Тематический обзор с сортировкой сотен отчетов и расшифровок по основным темам и возможностью ознакомиться с прогнозом (настроением) аналитика или компании по каждой теме
- Функция глубокого анализа, с помощью которой можно извлечь все предложения из отчета или расшифровки с упоминанием соответствующей темы для более полного понимания прогноза аналитика
- Отслеживание изменений прогнозов: анализ прогноза аналитика или компании по определенной теме с течением времени, а также сопоставление прогноза с ценой на фондовом рынке и средней прогнозной ценой
- Возможность переключаться между различными видами контента (в данном случае между отчетами об исследовании акций и расшифровками)
- Сводка по акциям на основе данных, полученных из исследовательских отчетов и расшифровок, а также анализа сопоставимых компаний

Learn-it-all Labs
Вводный курс в обработку естественного языка для рынков капитала
Ознакомьтесь с 30-минутным обзором Refinitiv Labs, в котором мы расскажем, как мы применяем инновационные технологии глубокого обучения и обработки естественного языка для анализа неструктурированных данных.
Вы увидите работу SentiMine в действии и узнаете, как обработка естественного языка позволяет выявлять индикаторы динамики акций из неструктурированного контента, такого как исследовательские отчеты, расшифровки, официальные документы, новости и публикации в социальных сетях.
Стратегия сотрудничества
При разработке решений для актуальных проблем на финансовых рынках Refinitiv Labs использует стратегию сотрудничества и ориентации на клиента, объединяя обратную связь от клиентов, собственные комплексные данные и первоклассные партнерские технологии.
Сотрудничество с клиентами:
- Постановка общих целей для того, чтобы повысить ценность решения SentiMine для клиентов
- Учет обратной связи, полученной от клиентов, на каждом этапе процесса разработки
- Оценка концепции с клиентами и заинтересованными сторонами Refinitiv
- Поддержание контакта с пользователями Refinitiv, заинтересованными в применении SentiMine
Технологии с открытым кодом и от партнеров Refinitiv:
- Amazon Simple Storage Service (S3)
- Сервис запросов Amazon Athena
- Библиотека машинного обучения PyTorch
- Платформа машинного обучения TensorFlow
- Аналитический механизм Apache Spark
- Машинное обучение полного цикла Mlflow
- Реляционная база данных PostgreSQL
- React: JavaScript-библиотека для создания пользовательских интерфейсов
- Node: среда выполнения JavaScript
- Python
Наборы данных Refinitiv
Перспективы

Цели Refinitiv Labs на будущее
Разрабатывайте
- Пользовательский интерфейс для получения расшифровок обсуждений прибылей и убытков компании
Моделирование
- Уточнение модели и тестирование для проверки качества
- Применение модели к другим классам неструктурированных данных, таким как расшифровки обсуждений прибылей и убытков
Взаимодействие с клиентами
- Оценка интерфейса для новой функции получения расшифровок на основании отзывов пользователей
- Проверка концепции совместно с клиентами