Getting text scores

ecacfc51b3684481bfdbd0b6c50b7a61


Import required packages

[2]:
from oceanai.modules.lab.build import Run

Build

[3]:
_b5 = Run(
    lang = 'en', # Inference language
    color_simple = '#333', # Plain text color (hexadecimal code)
    color_info = '#1776D2', # The color of the text containing the information (hexadecimal code)
    color_err = '#FF0000', # Error text color (hexadecimal code)
    color_true = '#008001', # Text color containing positive information (hexadecimal code)
    bold_text = True, # Bold text
    num_to_df_display = 30, # Number of rows to display in tables
    text_runtime = 'Runtime', # Runtime text
    metadata = True # Displaying information about library
)

[2024-10-08 19:27:28] OCEANAI - персональные качества личности человека:    Авторы:        Рюмина Елена [ryumina_ev@mail.ru]        Рюмин Дмитрий [dl_03.03.1991@mail.ru]        Карпов Алексей [karpov@iias.spb.su]    Сопровождающие:        Рюмина Елена [ryumina_ev@mail.ru]        Рюмин Дмитрий [dl_03.03.1991@mail.ru]    Версия: 1.0.0a40    Лицензия: BSD License

Getting and displaying versions of installed libraries

  • _b5.df_pkgs_ - DataFrame with versions of installed libraries

[4]:
_b5.libs_vers(runtime = True, run = True)
Package Version
1 OpenCV 4.10.0
2 MediaPipe 0.10.14
3 NumPy 1.26.4
4 SciPy 1.14.1
5 Pandas 2.2.3
6 Scikit-learn 1.5.2
7 OpenSmile 2.5.0
8 Librosa 0.10.2.post1
9 AudioRead 3.0.1
10 IPython 8.28.0
11 Requests 2.32.3
12 JupyterLab 4.2.5
13 LIWC 0.5.0
14 Transformers 4.45.1
15 Sentencepiece 0.2.0
16 Torch 2.4.1+cu118
17 Torchaudio 2.4.1+cu118
18 Torchvision 0.19.1+cu118

— Время выполнения: 0.004 сек. —

Loading a dictionary with hand-crafted features

[5]:
# Core setup
_b5.path_to_save_ = './models' # Directory to save the models
_b5.chunk_size_ = 2000000      # File download size from network in one step

res_load_text_features = _b5.load_text_features(
    force_reload = True,       # Forced download file
    out = True,                # Display
    runtime = True,            # Runtime calculation
    run = True                 # Run blocking
)

[2024-10-08 19:27:28] Загрузка словаря с экспертными признаками …

[2024-10-08 19:27:28] Загрузка файла “LIWC2007.txt” 100.0% …

— Время выполнения: 0.207 сек. —

Building tokenizer and translation model (RU -> EN)

[6]:
res_setup_translation_model = _b5.setup_translation_model(
    out = True,     # Display
    runtime = True, # Runtime calculation
    run = True      # Run blocking
)

[2024-10-08 19:27:28] Формирование токенизатора и нейросетевой модели машинного перевода …

— Время выполнения: 2.458 сек. —

Building tokenizer and BERT model (for word encoding)

[7]:
# Core setup
_b5.path_to_save_ = './models' # Directory to save the models
_b5.chunk_size_ = 2000000      # File download size from network in one step

res_setup_translation_model = _b5.setup_bert_encoder(
    force_reload = True,       # Forced download file
    out = True,                # Display
    runtime = True,            # Runtime calculation
    run = True                 # Run blocking
)

[2024-10-08 19:27:30] Формирование токенизатора и нейросетевой модели BERT …

[2024-10-08 19:27:30] Загрузка файла “bert-base-multilingual-cased.zip”

[2024-10-08 19:27:30] Формирование токенизатора и нейросетевой модели BERT …

[2024-10-08 19:27:30] Загрузка файла “bert-base-multilingual-cased.zip”

[2024-10-08 19:27:31] Разархивирование архива “bert-base-multilingual-cased.zip” …

— Время выполнения: 0.938 сек. —

FI V2

Formation of neural network architectures of models for obtaining scores by hand-crafted features

  • _b5.text_model_hc_ - Нейросетевая модель nn.Module для получения оценок по экспертным признакам

[8]:
res_load_text_model_hc_mupta = _b5.load_text_model_hc(
    corpus = "fi", # Corpus selection for models trained on First Impressions V2 'fi' and models trained on for MuPTA 'mupta'
    show_summary = False, # Displaying the formed neural network architecture of the model
    out = True, # Display
    runtime = True, # Runtime count
    run = True # Run blocking
)

[2024-10-08 19:27:31] Формирование нейросетевой архитектуры модели для получения оценок по экспертным признакам (текстовая модальность) …

— Время выполнения: 0.002 сек. —

Downloading the weights of the neural network model for obtaining scores by hand-crafted features

  • _b5.text_model_hc_ - Нейросетевая модель nn.Module для получения оценок по экспертным признакам

[9]:
# Настройки ядра
_b5.path_to_save_ = './models' # Директория для сохранения файла
_b5.chunk_size_ = 2000000 # Размер загрузки файла из сети за 1 шаг

url = _b5.weights_for_big5_['text']['fi']['hc']['googledisk']

res_load_text_model_weights_hc_fi = _b5.load_text_model_weights_hc(
    url = url, # Полный путь к файлу с весами нейросетевой модели
    force_reload = True, # Принудительная загрузка файла с весами нейросетевой модели из сети
    out = True, # Отображение
    runtime = True, # Подсчет времени выполнения
    run = True # Блокировка выполнения
)

[2024-10-08 19:27:31] Загрузка весов нейросетевой модели для получения оценок по экспертным признакам (текстовая модальность) …

[2024-10-08 19:27:34] Загрузка файла “weights_2023-07-15_10-52-15.pth” 100.0% …

— Время выполнения: 2.426 сек. —

Formation of the neural network architecture of the model to obtain scores by deep features

  • _b5.text_model_nn_ - Нейросетевая модель nn.Module для получения оценок по нейросетевым признакам

[10]:
res_load_text_model_nn_fi = _b5.load_text_model_nn(
    corpus = "fi", # Corpus selection for models trained on First Impressions V2 'fi' and models trained on for MuPTA 'mupta'
    show_summary = False, # Displaying the formed neural network architecture of the model
    out = True, # Display
    runtime = True, # Runtime count
    run = True # Run blocking
)

[2024-10-08 19:27:34] Формирование нейросетевой архитектуры для получения оценок по нейросетевым признакам (текстовая модальность) …

— Время выполнения: 0.002 сек. —

Downloading the weights of the neural network model for obtaining scores by deep features

  • _b5.text_model_nn_ - Нейросетевая модель nn.Module для получения оценок по нейросетевым признакам

[11]:
# Настройки ядра
_b5.path_to_save_ = './models' # Директория для сохранения файла
_b5.chunk_size_ = 2000000 # Размер загрузки файла из сети за 1 шаг

url = _b5.weights_for_big5_['text']['fi']['nn']['googledisk']

res_load_text_model_weights_nn_fi = _b5.load_text_model_weights_nn(
    url = url, # Полный путь к файлу с весами нейросетевой модели
    force_reload = True, # Принудительная загрузка файла с весами нейросетевой модели из сети
    out = True, # Отображение
    runtime = True, # Подсчет времени выполнения
    run = True # Блокировка выполнения
)

[2024-10-08 19:27:34] Загрузка весов нейросетевой модели для получения оценок по нейросетевым признакам (текстовая модальность) …

[2024-10-08 19:27:37] Загрузка файла “weights_2023-07-03_15-01-08.pth” 100.0% …

— Время выполнения: 2.99 сек. —

Formation of the neural network architecture of the model to obtain personality traits scores

  • _b5.text_model_b5_ - Нейросетевая модель nn.Module для получения оценок персональных качеств

[12]:
res_load_text_model_b5 = _b5.load_text_model_b5(
    show_summary = False, # Displaying the formed neural network architecture of the model
    out = True, # Display
    runtime = True, # Runtime count
    run = True # Run blocking
)

[2024-10-08 19:27:37] Формирование нейросетевой архитектуры модели для получения оценок персональных качеств (текстовая модальность) …

— Время выполнения: 0.001 сек. —

Downloading weights of neural network models for obtaining the personality traits scores

  • _b5.text_model_b5_ - Нейросетевая модель nn.Module для получения оценок персональных качеств

[13]:
# Настройки ядра
_b5.path_to_save_ = './models' # Директория для сохранения файла
_b5.chunk_size_ = 2000000 # Размер загрузки файла из сети за 1 шаг

url = _b5.weights_for_big5_['text']['fi']['b5']['googledisk']

res_load_text_model_weights_b5 = _b5.load_text_model_weights_b5(
    url = url,
    force_reload = False, # Принудительная загрузка файла с весами нейросетевой модели из сети
    out = True, # Отображение
    runtime = True, # Подсчет времени выполнения
    run = True # Блокировка выполнения
)

[2024-10-08 19:27:37] Загрузка весов нейросетевой модели для получения оценок персональных качеств (текстовая модальность) …

[2024-10-08 19:27:39] Загрузка файла “ft_fi_2023-12-09_14-25-13.pth” 100.0% …

— Время выполнения: 2.512 сек. —

Getting scores (text modality)

  • _b5.df_files_ - DataFrame with data

  • _b5.df_accuracy_ - DataFrame with accuracy

[14]:
# Настройки ядра
_b5.path_to_dataset_ = 'E:/Databases/FirstImpressionsV2/test' # Директория набора данных
# Директории не входящие в выборку
_b5.ignore_dirs_ = []
# Названия ключей для DataFrame набора данных
_b5.keys_dataset_ = ['Path', 'Openness', 'Conscientiousness', 'Extraversion', 'Agreeableness', 'Non-Neuroticism']
_b5.ext_ = ['.mp4'] # Расширения искомых файлов
_b5.path_to_logs_ = './logs' # Директория для сохранения LOG файлов

# Полный путь к файлу с верными предсказаниями для подсчета точности
url_accuracy = _b5.true_traits_['fi']['googledisk']

res_get_text_union_predictions = _b5.get_text_union_predictions(
    depth = 1,         # Глубина иерархии для получения видеоданных
    recursive = False, # Рекурсивный поиск данных
    asr = True,        # Распознавание речи
    lang = 'en',       # Выбор языка
    accuracy = True,   # Вычисление точности
    url_accuracy = url_accuracy,
    logs = True,       # При необходимости формировать LOG файл
    out = True,        # Отображение
    runtime = True,    # Подсчет времени выполнения
    run = True         # Блокировка выполнения
)

[2024-10-08 19:41:02] Извлечение признаков (экспертных и нейросетевых) из текста …

[2024-10-08 19:41:02] Получение прогнозов и вычисление точности (текстовая модальность) …

    2000 из 2000 (100.0%) … test80_25_Q4wOgixh7E.004.mp4 …

Path Openness Conscientiousness Extraversion Agreeableness Non-Neuroticism
Person ID
1 13kjwEtSyXc.003.mp4 0.62425 0.588714 0.537081 0.601578 0.586728
2 1Lv72Si4GnY.000.mp4 0.517981 0.405353 0.44052 0.486153 0.428741
3 1uC-2TZqplE.003.mp4 0.515809 0.48258 0.418819 0.520685 0.462983
4 2Z8Xi_DTlpI.000.mp4 0.653289 0.645737 0.561041 0.638437 0.635568
5 3df_Uk9EmwU.002.mp4 0.67261 0.562898 0.597237 0.618013 0.627053
6 3gmc2kLV4Bo.003.mp4 0.571253 0.494058 0.477292 0.548054 0.509251
7 3hKgh9AB3tk.003.mp4 0.578746 0.590573 0.470541 0.579949 0.544828
8 3S72dDIm1fM.005.mp4 0.547111 0.539819 0.441105 0.55385 0.525304
9 3tPq9fNOXZQ.000.mp4 0.630349 0.546183 0.548639 0.592516 0.576403
10 43tayteIFRk.001.mp4 0.64342 0.649916 0.561578 0.631822 0.63633
11 4RKQGZzPClk.000.mp4 0.610116 0.509349 0.532012 0.562868 0.547921
12 6zm71IHOCZA.005.mp4 0.501362 0.438311 0.407623 0.493455 0.43261
13 7qGYGbIg45c.001.mp4 0.516359 0.521557 0.411988 0.535451 0.474974
14 8YQKwMdiaAE.003.mp4 0.625665 0.595616 0.545001 0.608049 0.601337
15 9Crw2RtrBcY.005.mp4 0.50607 0.466966 0.428307 0.497129 0.451417
16 9eNHxfOV2Kg.005.mp4 0.638357 0.564154 0.560847 0.599312 0.594394
17 9J-KIPMQmqk.002.mp4 0.517384 0.587879 0.392157 0.569742 0.511946
18 9RfE2-aTvaM.002.mp4 0.58078 0.516229 0.489437 0.557368 0.520621
19 9_6auSk_wkY.002.mp4 0.545213 0.467215 0.467846 0.518254 0.478097
20 aaylz9A9K80.000.mp4 0.618926 0.528868 0.535652 0.581195 0.571601
21 Af_F0IzHK6o.002.mp4 0.584489 0.488611 0.499635 0.537739 0.524559
22 Ah5PEPT4xbo.000.mp4 0.504269 0.449509 0.427488 0.488253 0.441146
23 AotbiNsU85A.003.mp4 0.586978 0.591703 0.503008 0.578437 0.566063
24 BLc_GvsbI1U.001.mp4 0.644585 0.581776 0.558128 0.613248 0.601142
25 bLOSPQ8MAC8.005.mp4 0.575215 0.517174 0.481076 0.547783 0.5145
26 bPLhV0PGR50.001.mp4 0.561584 0.594121 0.455785 0.56225 0.535579
27 bYXRyimxh7A.001.mp4 0.522395 0.468391 0.425713 0.510265 0.450677
28 ch2BcBv4SdQ.003.mp4 0.642372 0.538192 0.564062 0.602477 0.595606
29 cpch8WDydcM.004.mp4 0.615539 0.541118 0.522198 0.585264 0.57033
30 De4i7-FX9Og.002.mp4 0.620014 0.522598 0.543595 0.568719 0.558633

[2024-10-08 19:41:02] Точность по отдельным персональным качествам личности человека …

Openness Conscientiousness Extraversion Agreeableness Non-Neuroticism Mean
Metrics
MAE 0.1096 0.1137 0.115 0.102 0.1152 0.1111
Accuracy 0.8904 0.8863 0.885 0.898 0.8848 0.8889

[2024-10-08 19:41:02] Средняя средних абсолютных ошибок: 0.1111, средняя точность: 0.8889 …

Лог файлы успешно сохранены …

— Время выполнения: 802.932 сек. —