Извлечение признаков из текстового сигнала
Импорт необходимых инструментов
[2]:
from oceanai.modules.lab.build import Run
Сборка
[3]:
_b5 = Run(
lang = 'ru', # Язык
color_simple = '#333', # Цвет обычного текста (шестнадцатеричный код)
color_info = '#1776D2', # Цвет текста содержащего информацию (шестнадцатеричный код)
color_err = '#FF0000', # Цвет текста содержащего ошибку (шестнадцатеричный код)
color_true = '#008001', # Цвет текста содержащего положительную информацию (шестнадцатеричный код)
bold_text = True, # Жирное начертание текста
num_to_df_display = 30, # Количество строк для отображения в таблицах
text_runtime = 'Время выполнения', # Текст времени выполнения
metadata = True # Отображение информации о библиотеке
)
[2024-10-08 19:22:31] OCEANAI - персональные качества личности человека: Авторы: Рюмина Елена [ryumina_ev@mail.ru] Рюмин Дмитрий [dl_03.03.1991@mail.ru] Карпов Алексей [karpov@iias.spb.su] Сопровождающие: Рюмина Елена [ryumina_ev@mail.ru] Рюмин Дмитрий [dl_03.03.1991@mail.ru] Версия: 1.0.0a40 Лицензия: BSD License
Загрузка словаря с экспертными признаками
[4]:
# Настройки ядра
_b5.path_to_save_ = './models' # Директория для сохранения файла
_b5.chunk_size_ = 2000000 # Размер загрузки файла из сети за 1 шаг
res_load_text_features = _b5.load_text_features(
force_reload = True, # Принудительная загрузка файла
out = True, # Отображение
runtime = True, # Подсчет времени выполнения
run = True # Блокировка выполнения
)
[2024-10-08 19:22:35] Загрузка словаря с экспертными признаками …
[2024-10-08 19:22:35] Загрузка файла «LIWC2007.txt» 100.0% …
— Время выполнения: 0.187 сек. —
Формирование токенизатора и нейросетевой модели машинного перевода (RU -> EN)
[5]:
res_setup_translation_model = _b5.setup_translation_model(
out = True, # Отображение
runtime = True, # Подсчет времени выполнения
run = True # Блокировка выполнения
)
[2024-10-08 19:22:40] Формирование токенизатора и нейросетевой модели машинного перевода …
— Время выполнения: 2.146 сек. —
Формирование токенизатора и нейросетевой модели BERT (для кодирования слов)
[6]:
# Настройки ядра
_b5.path_to_save_ = './models' # Директория для сохранения файла
_b5.chunk_size_ = 2000000 # Размер загрузки файла из сети за 1 шаг
res_setup_translation_model = _b5.setup_bert_encoder(
force_reload = False, # Принудительная загрузка файла
out = True, # Отображение
runtime = True, # Подсчет времени выполнения
run = True # Блокировка выполнения
)
[2024-10-08 19:22:48] Формирование токенизатора и нейросетевой модели BERT …
[2024-10-08 19:22:48] Загрузка файла «bert-base-multilingual-cased.zip»
[2024-10-08 19:22:48] Формирование токенизатора и нейросетевой модели BERT …
[2024-10-08 19:22:48] Загрузка файла «bert-base-multilingual-cased.zip»
[2024-10-08 19:22:48] Разархивирование архива «bert-base-multilingual-cased.zip» …
— Время выполнения: 1.942 сек. —
Процесс извлечения признаков из текста
Пример 1 (Анализ видефайла (EN) с учетом ручной транскрипции)
[7]:
# Путь к видеофайлу
path = '/Users/dl/GitHub/OCEANAI/docs/source/user_guide/notebooks/glgfB3vFewc.004.mp4'
hc_features, nn_features = _b5.get_text_features(
path = path, # Путь к видеофайлу
asr = False, # Распознавание речи
lang = 'en', # Выбор языка
show_text = True, # Отображение текста
out = True, # Отображение
runtime = True, # Подсчет времени выполнения
run = True # Блокировка выполнения
)
[2024-10-08 19:22:54] Извлечение признаков (экспертных и нейросетевых) из текста …
[2024-10-08 19:22:55] Статистика извлеченных признаков из текста: Размерность матрицы экспертных признаков: 89 ✕ 64 Размерность матрицы с нейросетевыми признаками: 104 ✕ 768 Текст: usersdlgithuboceanaidocssourceuser_guidenotebooksglgfb3vfewc004mp4
— Время выполнения: 0.211 сек. —
Пример 2 (Анализ видефайла (EN) без учета ручной транскрипции)
[8]:
# Путь к видеофайлу
path = '/Users/dl/GitHub/OCEANAI/docs/source/user_guide/notebooks/glgfB3vFewc.004.mp4'
hc_features, nn_features = _b5.get_text_features(
path = path, # Путь к видеофайлу
asr = True, # Распознавание речи
lang = 'en', # Выбор языка
show_text = True, # Отображение текста
out = True, # Отображение
runtime = True, # Подсчет времени выполнения
run = True # Блокировка выполнения
)
[2024-10-08 19:22:58] Извлечение признаков (экспертных и нейросетевых) из текста …
[2024-10-08 19:22:58] Статистика извлеченных признаков из текста: Размерность матрицы экспертных признаков: 89 ✕ 64 Размерность матрицы с нейросетевыми признаками: 104 ✕ 768 Текст: usersdlgithuboceanaidocssourceuser_guidenotebooksglgfb3vfewc004mp4
— Время выполнения: 0.188 сек. —
Пример 3 (Анализ видефайла (RU) без учета ручной транскрипции)
[9]:
# Путь к текстовому файлу
path = '/Users/dl/GitHub/OCEANAI/docs/source/user_guide/notebooks/center_42.mov'
hc_features, nn_features = _b5.get_text_features(
path = path, # Путь к видеофайлу
asr = False, # Распознавание речи
lang = 'ru', # Выбор языка
show_text = True, # Отображение текста
out = True, # Отображение
runtime = True, # Подсчет времени выполнения
run = True # Блокировка выполнения
)
[2024-10-08 19:23:00] Извлечение признаков (экспертных и нейросетевых) из текста …
[2024-10-08 19:23:00] Статистика извлеченных признаков из текста: Размерность матрицы экспертных признаков: 365 ✕ 64 Размерность матрицы с нейросетевыми признаками: 414 ✕ 768 Текст: usersdlgithuboceanaidocssourceuser_guidenotebookscenter_42mov
— Время выполнения: 0.543 сек. —
Пример 4 (Анализ текста - RU)
[10]:
# Текст
path = '''
На картинке изображены скорее всего друзья, которые играют в игру с мячом.
Это скорее всего происходит где-то в Америке, возможно, в Калифорнии на пляже.
Девушка в топе и в шортах пытается словить мяч. Также двое парней смотрят, один активно думает,
как перехватить следующую подачу мяча. На заднем фоне видны высокие пальмы. Стоят дома.
Небо голубое. Песок чистый. Чётко на песке отображаются силуэты людей. У парня вдали одеты солнцезащитные очки,
он также в шортах и в майке. Вблизи не видно головы человека. Он одет в тёмные шорты и в серую футболку.
'''
hc_features, nn_features = _b5.get_text_features(
path = path, # Текст
asr = False, # Распознавание речи
lang = 'ru', # Выбор языка
show_text = True, # Отображение текста
out = True, # Отображение
runtime = True, # Подсчет времени выполнения
run = True # Блокировка выполнения
)
[2024-10-08 19:23:03] Извлечение признаков (экспертных и нейросетевых) из текста …
[2024-10-08 19:23:04] Статистика извлеченных признаков из текста: Размерность матрицы экспертных признаков: 365 ✕ 64 Размерность матрицы с нейросетевыми признаками: 414 ✕ 768 Текст: на картинке изображены скорее всего друзья которые играют в игру с мячом это скорее всего происходит где-то в америке возможно в калифорнии на пляже девушка в топе и в шортах пытается словить мяч также двое парней смотрят один активно думает как перехватить следующую подачу мяча на заднем фоне видны высокие пальмы стоят дома небо голубое песок чистый чётко на песке отображаются силуэты людей у парня вдали одеты солнцезащитные очки он также в шортах и в майке вблизи не видно головы человека он одет в тёмные шорты и в серую футболку
— Время выполнения: 1.267 сек. —
Пример 5 (Анализ текста - EN)
[11]:
# Текст
path = '''
today says they to for that but right now i am just watching super girl a new images be catching up
and some shows a good say you guys
'''
hc_features, nn_features = _b5.get_text_features(
path = path, # Текст
asr = False, # Распознавание речи
lang = 'en', # Выбор языка
show_text = True, # Отображение текста
out = True, # Отображение
runtime = True, # Подсчет времени выполнения
run = True # Блокировка выполнения
)
[2024-10-08 19:23:07] Извлечение признаков (экспертных и нейросетевых) из текста …
[2024-10-08 19:23:07] Статистика извлеченных признаков из текста: Размерность матрицы экспертных признаков: 89 ✕ 64 Размерность матрицы с нейросетевыми признаками: 104 ✕ 768 Текст: today says they to for that but right now i am just watching super girl a new images be catching up and some shows a good say you guys
— Время выполнения: 0.02 сек. —
Пример 6 (Анализ текстового файла - EN)
[12]:
# Текст
path = '/Users/dl/GitHub/OCEANAI/docs/source/user_guide/notebooks/glgfB3vFewc.004.txt'
hc_features, nn_features = _b5.get_text_features(
path = path, # Текст
asr = False, # Распознавание речи
lang = 'en', # Выбор языка
show_text = True, # Отображение текста
out = True, # Отображение
runtime = True, # Подсчет времени выполнения
run = True # Блокировка выполнения
)
[2024-10-08 19:23:09] Извлечение признаков (экспертных и нейросетевых) из текста …
[2024-10-08 19:23:09] Статистика извлеченных признаков из текста: Размерность матрицы экспертных признаков: 89 ✕ 64 Размерность матрицы с нейросетевыми признаками: 104 ✕ 768 Текст: usersdlgithuboceanaidocssourceuser_guidenotebooksglgfb3vfewc004txt
— Время выполнения: 0.079 сек. —