Getting text scores
Import required packages
[2]:
from oceanai.modules.lab.build import Run
Build
[3]:
_b5 = Run(
lang = 'en', # Inference language
color_simple = '#333', # Plain text color (hexadecimal code)
color_info = '#1776D2', # The color of the text containing the information (hexadecimal code)
color_err = '#FF0000', # Error text color (hexadecimal code)
color_true = '#008001', # Text color containing positive information (hexadecimal code)
bold_text = True, # Bold text
num_to_df_display = 30, # Number of rows to display in tables
text_runtime = 'Runtime', # Runtime text
metadata = True # Displaying information about library
)
[2024-10-08 19:27:28] OCEANAI - персональные качества личности человека: Авторы: Рюмина Елена [ryumina_ev@mail.ru] Рюмин Дмитрий [dl_03.03.1991@mail.ru] Карпов Алексей [karpov@iias.spb.su] Сопровождающие: Рюмина Елена [ryumina_ev@mail.ru] Рюмин Дмитрий [dl_03.03.1991@mail.ru] Версия: 1.0.0a40 Лицензия: BSD License
Getting and displaying versions of installed libraries
_b5.df_pkgs_- DataFrame with versions of installed libraries
[4]:
_b5.libs_vers(runtime = True, run = True)
| Package | Version | |
|---|---|---|
| 1 | OpenCV | 4.10.0 |
| 2 | MediaPipe | 0.10.14 |
| 3 | NumPy | 1.26.4 |
| 4 | SciPy | 1.14.1 |
| 5 | Pandas | 2.2.3 |
| 6 | Scikit-learn | 1.5.2 |
| 7 | OpenSmile | 2.5.0 |
| 8 | Librosa | 0.10.2.post1 |
| 9 | AudioRead | 3.0.1 |
| 10 | IPython | 8.28.0 |
| 11 | Requests | 2.32.3 |
| 12 | JupyterLab | 4.2.5 |
| 13 | LIWC | 0.5.0 |
| 14 | Transformers | 4.45.1 |
| 15 | Sentencepiece | 0.2.0 |
| 16 | Torch | 2.4.1+cu118 |
| 17 | Torchaudio | 2.4.1+cu118 |
| 18 | Torchvision | 0.19.1+cu118 |
— Время выполнения: 0.004 сек. —
Loading a dictionary with hand-crafted features
[5]:
# Core setup
_b5.path_to_save_ = './models' # Directory to save the models
_b5.chunk_size_ = 2000000 # File download size from network in one step
res_load_text_features = _b5.load_text_features(
force_reload = True, # Forced download file
out = True, # Display
runtime = True, # Runtime calculation
run = True # Run blocking
)
[2024-10-08 19:27:28] Загрузка словаря с экспертными признаками …
[2024-10-08 19:27:28] Загрузка файла “LIWC2007.txt” 100.0% …
— Время выполнения: 0.207 сек. —
Building tokenizer and translation model (RU -> EN)
[6]:
res_setup_translation_model = _b5.setup_translation_model(
out = True, # Display
runtime = True, # Runtime calculation
run = True # Run blocking
)
[2024-10-08 19:27:28] Формирование токенизатора и нейросетевой модели машинного перевода …
— Время выполнения: 2.458 сек. —
Building tokenizer and BERT model (for word encoding)
[7]:
# Core setup
_b5.path_to_save_ = './models' # Directory to save the models
_b5.chunk_size_ = 2000000 # File download size from network in one step
res_setup_translation_model = _b5.setup_bert_encoder(
force_reload = True, # Forced download file
out = True, # Display
runtime = True, # Runtime calculation
run = True # Run blocking
)
[2024-10-08 19:27:30] Формирование токенизатора и нейросетевой модели BERT …
[2024-10-08 19:27:30] Загрузка файла “bert-base-multilingual-cased.zip”
[2024-10-08 19:27:30] Формирование токенизатора и нейросетевой модели BERT …
[2024-10-08 19:27:30] Загрузка файла “bert-base-multilingual-cased.zip”
[2024-10-08 19:27:31] Разархивирование архива “bert-base-multilingual-cased.zip” …
— Время выполнения: 0.938 сек. —
FI V2
Formation of neural network architectures of models for obtaining scores by hand-crafted features
_b5.text_model_hc_- Нейросетевая модель nn.Module для получения оценок по экспертным признакам
[8]:
res_load_text_model_hc_mupta = _b5.load_text_model_hc(
corpus = "fi", # Corpus selection for models trained on First Impressions V2 'fi' and models trained on for MuPTA 'mupta'
show_summary = False, # Displaying the formed neural network architecture of the model
out = True, # Display
runtime = True, # Runtime count
run = True # Run blocking
)
[2024-10-08 19:27:31] Формирование нейросетевой архитектуры модели для получения оценок по экспертным признакам (текстовая модальность) …
— Время выполнения: 0.002 сек. —
Downloading the weights of the neural network model for obtaining scores by hand-crafted features
_b5.text_model_hc_- Нейросетевая модель nn.Module для получения оценок по экспертным признакам
[9]:
# Настройки ядра
_b5.path_to_save_ = './models' # Директория для сохранения файла
_b5.chunk_size_ = 2000000 # Размер загрузки файла из сети за 1 шаг
url = _b5.weights_for_big5_['text']['fi']['hc']['googledisk']
res_load_text_model_weights_hc_fi = _b5.load_text_model_weights_hc(
url = url, # Полный путь к файлу с весами нейросетевой модели
force_reload = True, # Принудительная загрузка файла с весами нейросетевой модели из сети
out = True, # Отображение
runtime = True, # Подсчет времени выполнения
run = True # Блокировка выполнения
)
[2024-10-08 19:27:31] Загрузка весов нейросетевой модели для получения оценок по экспертным признакам (текстовая модальность) …
[2024-10-08 19:27:34] Загрузка файла “weights_2023-07-15_10-52-15.pth” 100.0% …
— Время выполнения: 2.426 сек. —
Formation of the neural network architecture of the model to obtain scores by deep features
_b5.text_model_nn_- Нейросетевая модель nn.Module для получения оценок по нейросетевым признакам
[10]:
res_load_text_model_nn_fi = _b5.load_text_model_nn(
corpus = "fi", # Corpus selection for models trained on First Impressions V2 'fi' and models trained on for MuPTA 'mupta'
show_summary = False, # Displaying the formed neural network architecture of the model
out = True, # Display
runtime = True, # Runtime count
run = True # Run blocking
)
[2024-10-08 19:27:34] Формирование нейросетевой архитектуры для получения оценок по нейросетевым признакам (текстовая модальность) …
— Время выполнения: 0.002 сек. —
Downloading the weights of the neural network model for obtaining scores by deep features
_b5.text_model_nn_- Нейросетевая модель nn.Module для получения оценок по нейросетевым признакам
[11]:
# Настройки ядра
_b5.path_to_save_ = './models' # Директория для сохранения файла
_b5.chunk_size_ = 2000000 # Размер загрузки файла из сети за 1 шаг
url = _b5.weights_for_big5_['text']['fi']['nn']['googledisk']
res_load_text_model_weights_nn_fi = _b5.load_text_model_weights_nn(
url = url, # Полный путь к файлу с весами нейросетевой модели
force_reload = True, # Принудительная загрузка файла с весами нейросетевой модели из сети
out = True, # Отображение
runtime = True, # Подсчет времени выполнения
run = True # Блокировка выполнения
)
[2024-10-08 19:27:34] Загрузка весов нейросетевой модели для получения оценок по нейросетевым признакам (текстовая модальность) …
[2024-10-08 19:27:37] Загрузка файла “weights_2023-07-03_15-01-08.pth” 100.0% …
— Время выполнения: 2.99 сек. —
Formation of the neural network architecture of the model to obtain personality traits scores
_b5.text_model_b5_- Нейросетевая модель nn.Module для получения оценок персональных качеств
[12]:
res_load_text_model_b5 = _b5.load_text_model_b5(
show_summary = False, # Displaying the formed neural network architecture of the model
out = True, # Display
runtime = True, # Runtime count
run = True # Run blocking
)
[2024-10-08 19:27:37] Формирование нейросетевой архитектуры модели для получения оценок персональных качеств (текстовая модальность) …
— Время выполнения: 0.001 сек. —
Downloading weights of neural network models for obtaining the personality traits scores
_b5.text_model_b5_- Нейросетевая модель nn.Module для получения оценок персональных качеств
[13]:
# Настройки ядра
_b5.path_to_save_ = './models' # Директория для сохранения файла
_b5.chunk_size_ = 2000000 # Размер загрузки файла из сети за 1 шаг
url = _b5.weights_for_big5_['text']['fi']['b5']['googledisk']
res_load_text_model_weights_b5 = _b5.load_text_model_weights_b5(
url = url,
force_reload = False, # Принудительная загрузка файла с весами нейросетевой модели из сети
out = True, # Отображение
runtime = True, # Подсчет времени выполнения
run = True # Блокировка выполнения
)
[2024-10-08 19:27:37] Загрузка весов нейросетевой модели для получения оценок персональных качеств (текстовая модальность) …
[2024-10-08 19:27:39] Загрузка файла “ft_fi_2023-12-09_14-25-13.pth” 100.0% …
— Время выполнения: 2.512 сек. —
Getting scores (text modality)
_b5.df_files_- DataFrame with data
_b5.df_accuracy_- DataFrame with accuracy
[14]:
# Настройки ядра
_b5.path_to_dataset_ = 'E:/Databases/FirstImpressionsV2/test' # Директория набора данных
# Директории не входящие в выборку
_b5.ignore_dirs_ = []
# Названия ключей для DataFrame набора данных
_b5.keys_dataset_ = ['Path', 'Openness', 'Conscientiousness', 'Extraversion', 'Agreeableness', 'Non-Neuroticism']
_b5.ext_ = ['.mp4'] # Расширения искомых файлов
_b5.path_to_logs_ = './logs' # Директория для сохранения LOG файлов
# Полный путь к файлу с верными предсказаниями для подсчета точности
url_accuracy = _b5.true_traits_['fi']['googledisk']
res_get_text_union_predictions = _b5.get_text_union_predictions(
depth = 1, # Глубина иерархии для получения видеоданных
recursive = False, # Рекурсивный поиск данных
asr = True, # Распознавание речи
lang = 'en', # Выбор языка
accuracy = True, # Вычисление точности
url_accuracy = url_accuracy,
logs = True, # При необходимости формировать LOG файл
out = True, # Отображение
runtime = True, # Подсчет времени выполнения
run = True # Блокировка выполнения
)
[2024-10-08 19:41:02] Извлечение признаков (экспертных и нейросетевых) из текста …
[2024-10-08 19:41:02] Получение прогнозов и вычисление точности (текстовая модальность) …
2000 из 2000 (100.0%) … test80_25_Q4wOgixh7E.004.mp4 …
| Path | Openness | Conscientiousness | Extraversion | Agreeableness | Non-Neuroticism | |
|---|---|---|---|---|---|---|
| Person ID | ||||||
| 1 | 13kjwEtSyXc.003.mp4 | 0.62425 | 0.588714 | 0.537081 | 0.601578 | 0.586728 |
| 2 | 1Lv72Si4GnY.000.mp4 | 0.517981 | 0.405353 | 0.44052 | 0.486153 | 0.428741 |
| 3 | 1uC-2TZqplE.003.mp4 | 0.515809 | 0.48258 | 0.418819 | 0.520685 | 0.462983 |
| 4 | 2Z8Xi_DTlpI.000.mp4 | 0.653289 | 0.645737 | 0.561041 | 0.638437 | 0.635568 |
| 5 | 3df_Uk9EmwU.002.mp4 | 0.67261 | 0.562898 | 0.597237 | 0.618013 | 0.627053 |
| 6 | 3gmc2kLV4Bo.003.mp4 | 0.571253 | 0.494058 | 0.477292 | 0.548054 | 0.509251 |
| 7 | 3hKgh9AB3tk.003.mp4 | 0.578746 | 0.590573 | 0.470541 | 0.579949 | 0.544828 |
| 8 | 3S72dDIm1fM.005.mp4 | 0.547111 | 0.539819 | 0.441105 | 0.55385 | 0.525304 |
| 9 | 3tPq9fNOXZQ.000.mp4 | 0.630349 | 0.546183 | 0.548639 | 0.592516 | 0.576403 |
| 10 | 43tayteIFRk.001.mp4 | 0.64342 | 0.649916 | 0.561578 | 0.631822 | 0.63633 |
| 11 | 4RKQGZzPClk.000.mp4 | 0.610116 | 0.509349 | 0.532012 | 0.562868 | 0.547921 |
| 12 | 6zm71IHOCZA.005.mp4 | 0.501362 | 0.438311 | 0.407623 | 0.493455 | 0.43261 |
| 13 | 7qGYGbIg45c.001.mp4 | 0.516359 | 0.521557 | 0.411988 | 0.535451 | 0.474974 |
| 14 | 8YQKwMdiaAE.003.mp4 | 0.625665 | 0.595616 | 0.545001 | 0.608049 | 0.601337 |
| 15 | 9Crw2RtrBcY.005.mp4 | 0.50607 | 0.466966 | 0.428307 | 0.497129 | 0.451417 |
| 16 | 9eNHxfOV2Kg.005.mp4 | 0.638357 | 0.564154 | 0.560847 | 0.599312 | 0.594394 |
| 17 | 9J-KIPMQmqk.002.mp4 | 0.517384 | 0.587879 | 0.392157 | 0.569742 | 0.511946 |
| 18 | 9RfE2-aTvaM.002.mp4 | 0.58078 | 0.516229 | 0.489437 | 0.557368 | 0.520621 |
| 19 | 9_6auSk_wkY.002.mp4 | 0.545213 | 0.467215 | 0.467846 | 0.518254 | 0.478097 |
| 20 | aaylz9A9K80.000.mp4 | 0.618926 | 0.528868 | 0.535652 | 0.581195 | 0.571601 |
| 21 | Af_F0IzHK6o.002.mp4 | 0.584489 | 0.488611 | 0.499635 | 0.537739 | 0.524559 |
| 22 | Ah5PEPT4xbo.000.mp4 | 0.504269 | 0.449509 | 0.427488 | 0.488253 | 0.441146 |
| 23 | AotbiNsU85A.003.mp4 | 0.586978 | 0.591703 | 0.503008 | 0.578437 | 0.566063 |
| 24 | BLc_GvsbI1U.001.mp4 | 0.644585 | 0.581776 | 0.558128 | 0.613248 | 0.601142 |
| 25 | bLOSPQ8MAC8.005.mp4 | 0.575215 | 0.517174 | 0.481076 | 0.547783 | 0.5145 |
| 26 | bPLhV0PGR50.001.mp4 | 0.561584 | 0.594121 | 0.455785 | 0.56225 | 0.535579 |
| 27 | bYXRyimxh7A.001.mp4 | 0.522395 | 0.468391 | 0.425713 | 0.510265 | 0.450677 |
| 28 | ch2BcBv4SdQ.003.mp4 | 0.642372 | 0.538192 | 0.564062 | 0.602477 | 0.595606 |
| 29 | cpch8WDydcM.004.mp4 | 0.615539 | 0.541118 | 0.522198 | 0.585264 | 0.57033 |
| 30 | De4i7-FX9Og.002.mp4 | 0.620014 | 0.522598 | 0.543595 | 0.568719 | 0.558633 |
[2024-10-08 19:41:02] Точность по отдельным персональным качествам личности человека …
| Openness | Conscientiousness | Extraversion | Agreeableness | Non-Neuroticism | Mean | |
|---|---|---|---|---|---|---|
| Metrics | ||||||
| MAE | 0.1096 | 0.1137 | 0.115 | 0.102 | 0.1152 | 0.1111 |
| Accuracy | 0.8904 | 0.8863 | 0.885 | 0.898 | 0.8848 | 0.8889 |
[2024-10-08 19:41:02] Средняя средних абсолютных ошибок: 0.1111, средняя точность: 0.8889 …
Лог файлы успешно сохранены …
— Время выполнения: 802.932 сек. —