IDLab курс повышения квалификации: Анализ текстовых данных в R и Python
Несмотря на летние отпуска, сотрудники и стажеры IDLab проходят курс повышения квалификации по автоматизированному анализу текстовых данных
Работа в лаборатории дает возможность постоянно изучать новое и совершенствоваться. В этот раз сотрудники обновляют свои познания в области анализа текстов в R и Python. Лекторами выступают Петр Паршаков, Елена Веретенник, София Паклина и Алексей Бузмаков.
Курс охватывает методы подготовки, анализа и визуализации текста как данных в социальных (экономических, управленческих) исследованиях. В рамках интерактивных занятий представлены основы скреппинга текстовых данных с вебсайтов, инструменты предобработки текстовых данных (чистка, приведение к единому формату, удаление стоп слов / символов с помощью регулярных выражений). Слушатели научатся распознавать именованные сущности, проводить морфологический и семантический анализ документов. На примерах из разных наборов данных (на русском и английском) будут представлены разные представления текстов, методы оценки семантической дистации, инструменты для разбивки текстов на тематические группы (кластеризация, LDA) и последующей визуализации. На примере дообучения модели класса BERT будет представлен опыт использования нейронных сетей для обработки текстовых данных, в том числе с целью построения предсказательных моделей.
Первое занятие было посвящено веб-скрейпингу на примере отзывов о российских банках. Лектор - Петр Паршаков.