Извлечение признаков из текстового сигнала


Импорт необходимых инструментов

[2]:
from oceanai.modules.lab.build import Run
2023-12-03 00:29:47.655916: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
INFO: Created TensorFlow Lite XNNPACK delegate for CPU.

Сборка

[3]:
_b5 = Run(
    lang = 'ru', # Язык
    color_simple = '#FFF', # Цвет обычного текста (шестнадцатеричный код)
    color_info = '#1776D2', # Цвет текста содержащего информацию (шестнадцатеричный код)
    color_err = '#FF0000', # Цвет текста содержащего ошибку (шестнадцатеричный код)
    color_true = '#008001', # Цвет текста содержащего положительную информацию (шестнадцатеричный код)
    bold_text = True, # Жирное начертание текста
    num_to_df_display = 30, # Количество строк для отображения в таблицах
    text_runtime = 'Время выполнения', # Текст времени выполнения
    metadata = True # Отображение информации о библиотеке
)

[2023-12-03 00:29:57] OCEANAI - персональные качества личности человека:    Авторы:        Рюмина Елена [ryumina_ev@mail.ru]        Рюмин Дмитрий [dl_03.03.1991@mail.ru]        Карпов Алексей [karpov@iias.spb.su]    Сопровождающие:        Рюмина Елена [ryumina_ev@mail.ru]        Рюмин Дмитрий [dl_03.03.1991@mail.ru]    Версия: 1.0.0a5    Лицензия: BSD License

Загрузка словаря с экспертными признаками

[4]:
# Настройки ядра
_b5.path_to_save_ = './models' # Директория для сохранения файла
_b5.chunk_size_ = 2000000 # Размер загрузки файла из сети за 1 шаг

res_load_text_features = _b5.load_text_features(
    force_reload = True, # Принудительная загрузка файла
    out = True, # Отображение
    runtime = True, # Подсчет времени выполнения
    run = True # Блокировка выполнения
)

[2023-12-03 00:29:57] Загрузка словаря с экспертными признаками …

[2023-12-03 00:30:00] Загрузка файла “LIWC2007.txt” 100.0% …

— Время выполнения: 3.073 сек. —

Формирование токенизатора и нейросетевой модели машинного перевода (RU -> EN)

[5]:
res_setup_translation_model = _b5.setup_translation_model(
    out = True, # Отображение
    runtime = True, # Подсчет времени выполнения
    run = True # Блокировка выполнения
)

[2023-12-03 00:30:00] Формирование токенизатора и нейросетевой модели машинного перевода …

— Время выполнения: 3.098 сек. —

Формирование токенизатора и нейросетевой модели BERT (для кодирования слов)

[6]:
# Настройки ядра
_b5.path_to_save_ = './models' # Директория для сохранения файла
_b5.chunk_size_ = 2000000 # Размер загрузки файла из сети за 1 шаг

res_setup_translation_model = _b5.setup_bert_encoder(
    force_reload = False, # Принудительная загрузка файла
    out = True, # Отображение
    runtime = True, # Подсчет времени выполнения
    run = True # Блокировка выполнения
)

[2023-12-03 00:30:04] Формирование токенизатора и нейросетевой модели BERT …

[2023-12-03 00:30:07] Загрузка файла “bert-base-multilingual-cased.zip”

[2023-12-03 00:30:04] Формирование токенизатора и нейросетевой модели BERT …

[2023-12-03 00:30:07] Загрузка файла “bert-base-multilingual-cased.zip”

[2023-12-03 00:30:07] Разархивирование архива “bert-base-multilingual-cased.zip” …

— Время выполнения: 14.752 сек. —

Процесс извлечения признаков из текста

Пример 1 (Анализ видефайла (EN) с учетом ручной транскрипции)

[7]:
# Путь к видеофайлу
path = '/Users/dl/GitHub/OCEANAI/docs/source/user_guide/notebooks/glgfB3vFewc.004.mp4'

hc_features, nn_features = _b5.get_text_features(
    path = path, # Путь к видеофайлу
    asr = False, # Распознавание речи
    lang = 'en', # Выбор языка
    show_text = True, # Отображение текста
    out = True, # Отображение
    runtime = True, # Подсчет времени выполнения
    run = True # Блокировка выполнения
)

[2023-12-03 00:30:18] Извлечение признаков (экспертных и нейросетевых) из текста …

[2023-12-03 00:30:19] Статистика извлеченных признаков из текста:    Размерность матрицы экспертных признаков: 89 ✕ 64    Размерность матрицы с нейросетевыми признаками: 104 ✕ 768     Текст:        during those times i feel sad i feel confused and

— Время выполнения: 0.343 сек. —

Пример 2 (Анализ видефайла (EN) без учета ручной транскрипции)

[8]:
# Путь к видеофайлу
path = '/Users/dl/GitHub/OCEANAI/docs/source/user_guide/notebooks/glgfB3vFewc.004.mp4'

hc_features, nn_features = _b5.get_text_features(
    path = path, # Путь к видеофайлу
    asr = True, # Распознавание речи
    lang = 'en', # Выбор языка
    show_text = True, # Отображение текста
    out = True, # Отображение
    runtime = True, # Подсчет времени выполнения
    run = True # Блокировка выполнения
)

[2023-12-03 00:30:19] Извлечение признаков (экспертных и нейросетевых) из текста …

[2023-12-03 00:30:25] Статистика извлеченных признаков из текста:    Размерность матрицы экспертных признаков: 89 ✕ 64    Размерность матрицы с нейросетевыми признаками: 104 ✕ 768     Текст:        during those times i feel sad i feel confused and- the school and introduce them to our administrators and the different faculty that work throughout the school and the library and the gym and so on and then they can get comfortable if theyre in a new school as well

— Время выполнения: 6.398 сек. —

Пример 3 (Анализ видефайла (RU) без учета ручной транскрипции)

[9]:
# Путь к текстовому файлу
path = '/Users/dl/GitHub/OCEANAI/docs/source/user_guide/notebooks/center_42.mov'

hc_features, nn_features = _b5.get_text_features(
    path = path, # Путь к видеофайлу
    asr = False, # Распознавание речи
    lang = 'ru', # Выбор языка
    show_text = True, # Отображение текста
    out = True, # Отображение
    runtime = True, # Подсчет времени выполнения
    run = True # Блокировка выполнения
)

[2023-12-03 00:30:25] Извлечение признаков (экспертных и нейросетевых) из текста …

[2023-12-03 00:30:43] Статистика извлеченных признаков из текста:    Размерность матрицы экспертных признаков: 365 ✕ 64    Размерность матрицы с нейросетевыми признаками: 414 ✕ 768     Текст:        на картинке изображены скорее всего друзья которые играют в груз мечом это скорее всего происходит где-то в америке возможно в калифорнии на пляже девушка в топе и в шортах пытается словить мяч также двое парней смотрят одинаково думает как перехватить следующую подачу меча на заднем фоне видны высокие пальмы стоят дома неба голубое песок чистой чётко написки отображаются силой этой людей у парня в дали одеты солнце защитные очки он также в шортах и в майке в близи не видно головы человека он одет в темные шорты и в серую фортболку

— Время выполнения: 18.045 сек. —

Пример 4 (Анализ текста - RU)

[10]:
# Текст
path = '''
На картинке изображены скорее всего друзья, которые играют в игру с мячом.
Это скорее всего происходит где-то в Америке, возможно, в Калифорнии на пляже.
Девушка в топе и в шортах пытается словить мяч. Также двое парней смотрят, один активно думает,
как перехватить следующую подачу мяча. На заднем фоне видны высокие пальмы. Стоят дома.
Небо голубое. Песок чистый. Чётко на песке отображаются силуэты людей. У парня вдали одеты солнцезащитные очки,
он также в шортах и в майке. Вблизи не видно головы человека. Он одет в тёмные шорты и в серую футболку.
'''

hc_features, nn_features = _b5.get_text_features(
    path = path, # Текст
    asr = False, # Распознавание речи
    lang = 'ru', # Выбор языка
    show_text = True, # Отображение текста
    out = True, # Отображение
    runtime = True, # Подсчет времени выполнения
    run = True # Блокировка выполнения
)

[2023-12-03 00:30:43] Извлечение признаков (экспертных и нейросетевых) из текста …

[2023-12-03 00:30:52] Статистика извлеченных признаков из текста:    Размерность матрицы экспертных признаков: 365 ✕ 64    Размерность матрицы с нейросетевыми признаками: 414 ✕ 768     Текст:        на картинке изображены скорее всего друзья которые играют в игру с мячом это скорее всего происходит где-то в америке возможно в калифорнии на пляже девушка в топе и в шортах пытается словить мяч также двое парней смотрят один активно думает как перехватить следующую подачу мяча на заднем фоне видны высокие пальмы стоят дома небо голубое песок чистый чётко на песке отображаются силуэты людей у парня вдали одеты солнцезащитные очки он также в шортах и в майке вблизи не видно головы человека он одет в тёмные шорты и в серую футболку

— Время выполнения: 9.227 сек. —

Пример 5 (Анализ текста - EN)

[11]:
# Текст
path = '''
today says they to for that but right now i am just watching super girl a new images be catching up
and some shows a good say you guys
'''

hc_features, nn_features = _b5.get_text_features(
    path = path, # Текст
    asr = False, # Распознавание речи
    lang = 'en', # Выбор языка
    show_text = True, # Отображение текста
    out = True, # Отображение
    runtime = True, # Подсчет времени выполнения
    run = True # Блокировка выполнения
)

[2023-12-03 00:30:52] Извлечение признаков (экспертных и нейросетевых) из текста …

[2023-12-03 00:30:53] Статистика извлеченных признаков из текста:    Размерность матрицы экспертных признаков: 89 ✕ 64    Размерность матрицы с нейросетевыми признаками: 104 ✕ 768     Текст:        today says they to for that but right now i am just watching super girl a new images be catching up and some shows a good say you guys

— Время выполнения: 0.247 сек. —

Пример 6 (Анализ текстового файла - EN)

[12]:
# Текст
path = '/Users/dl/GitHub/OCEANAI/docs/source/user_guide/notebooks/glgfB3vFewc.004.txt'

hc_features, nn_features = _b5.get_text_features(
    path = path, # Текст
    asr = False, # Распознавание речи
    lang = 'en', # Выбор языка
    show_text = True, # Отображение текста
    out = True, # Отображение
    runtime = True, # Подсчет времени выполнения
    run = True # Блокировка выполнения
)

[2023-12-03 00:30:53] Извлечение признаков (экспертных и нейросетевых) из текста …

[2023-12-03 00:30:53] Статистика извлеченных признаков из текста:    Размерность матрицы экспертных признаков: 89 ✕ 64    Размерность матрицы с нейросетевыми признаками: 104 ✕ 768     Текст:        during those times i feel sad i feel confused and

— Время выполнения: 0.204 сек. —