Extracting features from a text

Import required packages

[2]:

from oceanai.modules.lab.build import Run

Build

[3]:

_b5 = Run(
    lang = 'ru', # Язык
    color_simple = '#333', # Цвет обычного текста (шестнадцатеричный код)
    color_info = '#1776D2', # Цвет текста содержащего информацию (шестнадцатеричный код)
    color_err = '#FF0000', # Цвет текста содержащего ошибку (шестнадцатеричный код)
    color_true = '#008001', # Цвет текста содержащего положительную информацию (шестнадцатеричный код)
    bold_text = True, # Жирное начертание текста
    num_to_df_display = 30, # Количество строк для отображения в таблицах
    text_runtime = 'Время выполнения', # Текст времени выполнения
    metadata = True # Отображение информации о библиотеке
)

[2024-10-08 19:22:31] OCEANAI - персональные качества личности человека: Авторы: Рюмина Елена [ryumina_ev@mail.ru] Рюмин Дмитрий [dl_03.03.1991@mail.ru] Карпов Алексей [karpov@iias.spb.su] Сопровождающие: Рюмина Елена [ryumina_ev@mail.ru] Рюмин Дмитрий [dl_03.03.1991@mail.ru] Версия: 1.0.0a40 Лицензия: BSD License

Loading a dictionary with hand-crafted features

[4]:

# Core setup
_b5.path_to_save_ = './models' # Directory to save the models
_b5.chunk_size_ = 2000000      # File download size from network in one step

res_load_text_features = _b5.load_text_features(
    force_reload = True,       # Forced download file
    out = True,                # Display
    runtime = True,            # Runtime calculation
    run = True                 # Run blocking
)

[2024-10-08 19:22:35] Загрузка словаря с экспертными признаками …

[2024-10-08 19:22:35] Загрузка файла “LIWC2007.txt” 100.0% …

— Время выполнения: 0.187 сек. —

Building tokenizer and translation model (`RU -> EN`)

[5]:

res_setup_translation_model = _b5.setup_translation_model(
    out = True,     # Display
    runtime = True, # Runtime calculation
    run = True      # Run blocking
)

[2024-10-08 19:22:40] Формирование токенизатора и нейросетевой модели машинного перевода …

— Время выполнения: 2.146 сек. —

Building tokenizer and BERT model (`for word encoding`)

[6]:

# Core setup
_b5.path_to_save_ = './models' # Directory to save the models
_b5.chunk_size_ = 2000000      # File download size from network in one step

res_setup_translation_model = _b5.setup_bert_encoder(
    force_reload = True,       # Forced download file
    out = True,                # Display
    runtime = True,            # Runtime calculation
    run = True                 # Run blocking
)

[2024-10-08 19:22:48] Формирование токенизатора и нейросетевой модели BERT …

[2024-10-08 19:22:48] Загрузка файла “bert-base-multilingual-cased.zip”

[2024-10-08 19:22:48] Формирование токенизатора и нейросетевой модели BERT …

[2024-10-08 19:22:48] Загрузка файла “bert-base-multilingual-cased.zip”

[2024-10-08 19:22:48] Разархивирование архива “bert-base-multilingual-cased.zip” …

— Время выполнения: 1.942 сек. —

Process of extracting text features

Example 1 (Analyzing a video file (`EN`) with manual transcription)

[7]:

# Video file path
path = '/Users/dl/GitHub/OCEANAI/docs/source/user_guide/notebooks/glgfB3vFewc.004.mp4'

hc_features, nn_features = _b5.get_text_features(
    path = path, # Video file path
    asr = False, # Using a model for ASR
    lang = 'en', # Language selection for models trained on First Impressions V2 'en' and models trained on for MuPTA 'ru'
    show_text = True, # Text display
    out = True,       # Display
    runtime = True,   # Runtime calculation
    run = True        # Run blocking
)

[2024-10-08 19:22:54] Извлечение признаков (экспертных и нейросетевых) из текста …

[2024-10-08 19:22:55] Статистика извлеченных признаков из текста: Размерность матрицы экспертных признаков: 89 ✕ 64 Размерность матрицы с нейросетевыми признаками: 104 ✕ 768 Текст: usersdlgithuboceanaidocssourceuser_guidenotebooksglgfb3vfewc004mp4

— Время выполнения: 0.211 сек. —

Example 2 (Analyzing a video file (`EN`) without manual transcription)

[8]:

# Video file path
path = '/Users/dl/GitHub/OCEANAI/docs/source/user_guide/notebooks/glgfB3vFewc.004.mp4'

hc_features, nn_features = _b5.get_text_features(
    path = path, # Video file path
    asr = True, # Using a model for ASR
    lang = 'en', # Language selection for models trained on First Impressions V2 'en' and models trained on for MuPTA 'ru'
    show_text = True, # Text display
    out = True,       # Display
    runtime = True,   # Runtime calculation
    run = True        # Run blocking
)

[2024-10-08 19:22:58] Извлечение признаков (экспертных и нейросетевых) из текста …

[2024-10-08 19:22:58] Статистика извлеченных признаков из текста: Размерность матрицы экспертных признаков: 89 ✕ 64 Размерность матрицы с нейросетевыми признаками: 104 ✕ 768 Текст: usersdlgithuboceanaidocssourceuser_guidenotebooksglgfb3vfewc004mp4

— Время выполнения: 0.188 сек. —

Example 3 (Analyzing a video file (`RU`) without manual transcription)

[9]:

# Video file path
path = '/Users/dl/GitHub/OCEANAI/docs/source/user_guide/notebooks/center_42.mov'

hc_features, nn_features = _b5.get_text_features(
    path = path, # Video file path
    asr = False, # Using a model for ASR
    lang = 'ru', # Language selection for models trained on First Impressions V2 'en' and models trained on for MuPTA 'ru'
    show_text = True, # Text display
    out = True,       # Display
    runtime = True,   # Runtime calculation
    run = True        # Run blocking
)

[2024-10-08 19:23:00] Извлечение признаков (экспертных и нейросетевых) из текста …

[2024-10-08 19:23:00] Статистика извлеченных признаков из текста: Размерность матрицы экспертных признаков: 365 ✕ 64 Размерность матрицы с нейросетевыми признаками: 414 ✕ 768 Текст: usersdlgithuboceanaidocssourceuser_guidenotebookscenter_42mov

— Время выполнения: 0.543 сек. —

Example 4 (Text Analysis - ``RU’’)

[10]:

# Text
path = '''
На картинке изображены скорее всего друзья, которые играют в игру с мячом.
Это скорее всего происходит где-то в Америке, возможно, в Калифорнии на пляже.
Девушка в топе и в шортах пытается словить мяч. Также двое парней смотрят, один активно думает,
как перехватить следующую подачу мяча. На заднем фоне видны высокие пальмы. Стоят дома.
Небо голубое. Песок чистый. Чётко на песке отображаются силуэты людей. У парня вдали одеты солнцезащитные очки,
он также в шортах и в майке. Вблизи не видно головы человека. Он одет в тёмные шорты и в серую футболку.
'''

hc_features, nn_features = _b5.get_text_features(
    path = path, # Text
    asr = False, # Using a model for ASR
    lang = 'ru', # Language selection for models trained on First Impressions V2 'en' and models trained on for MuPTA 'ru'
    show_text = True, # Text display
    out = True,       # Display
    runtime = True,   # Runtime calculation
    run = True        # Run blocking
)

[2024-10-08 19:23:03] Извлечение признаков (экспертных и нейросетевых) из текста …

[2024-10-08 19:23:04] Статистика извлеченных признаков из текста: Размерность матрицы экспертных признаков: 365 ✕ 64 Размерность матрицы с нейросетевыми признаками: 414 ✕ 768 Текст: на картинке изображены скорее всего друзья которые играют в игру с мячом это скорее всего происходит где-то в америке возможно в калифорнии на пляже девушка в топе и в шортах пытается словить мяч также двое парней смотрят один активно думает как перехватить следующую подачу мяча на заднем фоне видны высокие пальмы стоят дома небо голубое песок чистый чётко на песке отображаются силуэты людей у парня вдали одеты солнцезащитные очки он также в шортах и в майке вблизи не видно головы человека он одет в тёмные шорты и в серую футболку

— Время выполнения: 1.267 сек. —

Example 5 (Text Analysis - ``EN’’)

[11]:

# Text
path = '''
today says they to for that but right now i am just watching super girl a new images be catching up
and some shows a good say you guys
'''

hc_features, nn_features = _b5.get_text_features(
    path = path, # Text
    asr = False, # Using a model for ASR
    lang = 'en', # Language selection for models trained on First Impressions V2 'en' and models trained on for MuPTA 'ru'
    show_text = True, # Text display
    out = True,       # Display
    runtime = True,   # Runtime calculation
    run = True        # Run blocking
)

[2024-10-08 19:23:07] Извлечение признаков (экспертных и нейросетевых) из текста …

[2024-10-08 19:23:07] Статистика извлеченных признаков из текста: Размерность матрицы экспертных признаков: 89 ✕ 64 Размерность матрицы с нейросетевыми признаками: 104 ✕ 768 Текст: today says they to for that but right now i am just watching super girl a new images be catching up and some shows a good say you guys

— Время выполнения: 0.02 сек. —

Example 5 (Analysing a text file - ``EN’’)

[12]:

# Text
path = '/Users/dl/GitHub/OCEANAI/docs/source/user_guide/notebooks/glgfB3vFewc.004.txt'

hc_features, nn_features = _b5.get_text_features(
    path = path, # Text
    asr = False, # Using a model for ASR
    lang = 'en', # Language selection for models trained on First Impressions V2 'en' and models trained on for MuPTA 'ru'
    show_text = True, # Text display
    out = True,       # Display
    runtime = True,   # Runtime calculation
    run = True        # Run blocking
)

[2024-10-08 19:23:09] Извлечение признаков (экспертных и нейросетевых) из текста …

[2024-10-08 19:23:09] Статистика извлеченных признаков из текста: Размерность матрицы экспертных признаков: 89 ✕ 64 Размерность матрицы с нейросетевыми признаками: 104 ✕ 768 Текст: usersdlgithuboceanaidocssourceuser_guidenotebooksglgfb3vfewc004txt

— Время выполнения: 0.079 сек. —