1. Главная
  2. Инновационные лаборатории
  3. Проекты, над которыми мы работаем
  4. Моделирование финансового языка

Моделирование финансового языка

Анализ финансового языка с помощью модели языка / технологии обучения BERT с открытым кодом от Google.

Проблемы и возможности

Анализ финансовых рынков через призму языка станет следующей задачей цифровой трансформации и, в конечном счете, новым конкурентным преимуществом.

Чтобы масштабировать анализ и решение проблем с помощью обработки естественного языка, финансовым компаниям необходимо обучать и отслеживать множество моделей. Для компании среднего размера, желающей применить обработку естественного языка к пяти или более случаям, количество таких моделей может превысить сотню.

Обучение каждой модели для достижения точного и надежного уровня качества также затратно: за пять лет компания может инвестировать 1 млрд долларов США в вычисления для отработки лишь одной модели языка (EN). Кроме того, каждую модель необходимо поддерживать и настраивать с течением времени, что также требует привлечения специалистов и высоких издержек на вычисления.

Возможно ли сократить расходы на обучение, если заранее использовать единую узкоспециализированную модель языка? Команда Refinitiv Labs намерена проверить эту гипотезу.

Решение        

Проект Refinitiv Labs по моделированию финансового языка помогает финансовым компаниям создавать передовые масштабируемые сервисы в финансовой сфере с использованием обработки естественного языка.

Команда провела обучение двух узкоспециализированных разновидностей модели языка от Google — BERT (EN) (Bidirectional Encoder Representations from Transformers, представления двунаправленного кодировщика на основе архитектуры Transformers). Для анализа языка модель сгенерировала высококачественные вложения на основе текстов, предоставленных пользователями. Вложения — это числовые представления слов. Они фиксируют значения и связи между словами в документе и могут применяться для решения последующих задач обработки естественного языка, таких как классификация текстов, анализ настроений, извлечение данных, ответы на вопросы и т. д.

Новые модели BERT сначала применялись в исследовательских целях, а теперь используются в качестве узкоспециализированных моделей языка, разработанных Refinitiv Labs. Модели можно интегрировать в систему обучения для обработки естественного языка. Они превращают набор текстовых данных для обучения в числовые данные, на базе которых происходит дальнейшее обучение (или тонкая настройка).

В настоящий момент Refinitiv Labs работает с группой клиентов над проверкой и улучшением новых моделей и API. Один из клиентов недавно отметил улучшение результатов модели на 2–4% при использовании алгоритма BERT-RNA и на 2–4% при использовании алгоритма BERT-TRAN.

Моделирование финансового языка в действии

API от Refinitiv Labs создает вложение одного документа или вектор словесных вложений по двум предобученным моделям BERT на основе архитектуры BERT-Base, чувствительной к регистру.

Модель BERT-Base прошла обучение на материале английской версии Википедии и корпуса книг и состоит из 12 слоев, 768 скрытых элементов, 12 «голов» внимания на слой и 110 млн параметров в общей сложности.

1.   BERT-RNA
​​​​Модель, предобученная на материале Reuters News Archive, состоит из всех статей Reuters, опубликованных в период с 1996 г. по 2019 г. Подразделение Refinitiv Labs провело фильтрацию корпуса с использованием метаданных для учета только статей на английском языке с тематическими кодами Reuters, соответствующими новостям о компаниях, корпоративных событиях, государственных финансах или экономике.

Кроме того, команда исключила статьи, в которых тематические коды и ключевые слова отражают новостные сводки, обзоры основных событий, дайджесты и анализ рынков. В таких статьях как правило содержатся списки или нумерованные указатели несвязанных новостных заголовков, которые не подходят для выполнения задачи по прогнозу следующих предложений в рамках функции потерь BERT на этапе предобучения.

Полученный отфильтрованный корпус содержит 2,2 млн статей и 715 млн слов. Команда Refinitiv Labs провела предобучение, используя максимальную длину последовательности, равную 128 для 5 млн шагов, 50 000 шагов тренировки, шаг обучения 1e-5 и размер батча, равный 256. Затем команда провела предобучение, используя максимальную длину последовательности, равную 512 для дальнейшего 1 млн шагов, поскольку при длинных последовательностях в основном необходимо обучение позиционным вложениям, которым модель может обучиться относительно быстро.

2.   BERT-TRAN
Модель BERT-Base прошла предобучение на материале крупного корпуса расшифровок обсуждений прибылей и убытков, состоящего из 390 000 расшифровок общим объемом в 2,9 млрд слов.

Предобучение проводилось с использованием размера батча, равного 512 для 2,5 млн шагов, при максимальной длине последовательности, равной 128 токенам, а затем при максимальной длине последовательности 512 токенов для 500 000 шагов. Предобучение обеих моделей проводилось на базе тензорных процессоров Google Cloud.

Основные выводы для специалистов по обработке данных, технологов и исследователей

Разработки Refinitiv Labs в сфере моделирования финансовых данных позволяют финансовым компаниям проще и оптимальнее использовать свои данные и проводить эффективное обучение и развертывание проектов по обработке естественного языка и машинному обучению. По результатам проведенных исследований команда подготовила следующие практические рекомендации для коллег:

  • Убедитесь, что у вас есть достаточно образцов для обучения, чтобы обеспечить точность модели. Для классификаций необходимо получить достаточно образцов по каждой категории, при этом допустимо использовать обратный перевод, чтобы синтезировать образцы при необходимости. Обратный перевод — это машинный перевод с одного языка на другой и наоборот, например с английского на французский и обратно на английский. Это позволяет добиться перефразирования, сохраняя при этом смысл текста.
  • Тщательно проанализируйте текстовые данные и проведите правильную фильтрацию и начальную подготовку данных, чтобы получить наиболее эффективные вложения и результаты.
  • Обязательно очистите текстовые данные, например удалите из текста таблицы ASCII и другие структурированные данные.
  • Обратите внимание, что стандартная модель BERT может обработать максимум 512 токенов (слов) в выборке.
  • Оцените и проанализируйте затраты на работу с данными моделями. Зачастую они требуют применения графических процессоров как для обучения, так и для логических выводов.
  • Подумайте, как можно автоматизировать процессы обучения и логического вывода, в том числе проверку модели и детекцию смещения. Это поможет масштабировать несколько моделей на этапе производства.
center

Learn-it-all Labs

Как повысить точность моделей языка

Представьте себе ИИ, который лучше понимает финансовые данные, чем вы сами...

Среда, 28 апреля | 9:00 BST | 14:00 EDT

Четверг, 29 апреля | 10:00 HKT 

Бесплатные наборы данных и отчеты

Бесплатные наборы данных и отчеты для разработчиков и специалистов по данным и количественному анализу

Инструмент для анализа данных был разработан Refinitiv Labs и включает графы знаний Refinitiv, а также отчеты Jupyter.

Свяжитесь с нашими локальными специалистами

Европа, Ближний Восток и Африка
Россия и СНГ: +7 495 961 0100
Европа: +442045302020
Африка: +27 11 775 3188
Ближний Восток и Северная Африка:
+971 4 453 6768

Америка
Все страны (звонок бесплатный):
+1 800 427 7570
Бразилия: +55 11 47009629
Аргентина: +54 11 53546700
Чили: +56 2 24838932
Мексика: +52 55 80005740
Колумбия: +57 1 4419404

Азиатско-Тихоокеанский регион
Австралия, Острова Тихого океана: +612 8066 2494
Китай: +86 10 66271095
Гонконг и Макао: +852 3077 5499
Индия, Бангладеш, Непал, Мальдивы и Шри-Ланка:
+91 22 6180 7525
Индонезия: 001 803 065 067
Япония: +813 6743 6515
Корея: +822 3478 4303
Малайзия и Бруней: +603 7 724 0502
Новая Зеландия +64 9913 6203
Филиппины 180 089 094 050 (Globe) или 180 014 410 639 (PLDT)
Сингапур и все страны, не входящие в список АСЕАН: +65 6415 5484
Тайвань: +886 2 7734 4677
Таиланд и Лаос: +662 844 9576

Помощь и Поддержка

Уже являетесь пользователем?

Местоположение офисов

Свяжитесь с ближайшим офисом Refinitiv