tf-idf

Гордость и предубеждение и Voyant Tools: как сделать развлекательный материал про литературу цифровыми методами

Многие цифровые гуманитарные методы и инструменты органично смотрятся в научно-популярных материалах и исследованиях: по ключевым словам произведений действительно можно составить их портрет, а истории про стилометрию нередко читаются как детективный роман. В этом материале автор рассказывает о собственном опыте подготовки теста «Остен или Бриджертоны» для книжного проекта «Смысловая 226», сложностях этой работы и неожиданных забавных находках

«Кладмен мудак»: анализ тональности отзывов о запрещенных веществах

Язык интернета имеет свои характерные черты. И если исследованию языка Рунета посвящено множество работ, то DarkNet все еще остается серым пятном в этом плане. С помощью анализа тональности текстов выясняем, какая лексика характерна для отзывов о запрещенных веществах.

Как вычислить TF-IDF?

Интуитивно задачу TF-IDF решает каждый, кто делал запрос в Гугле: нужно догадаться, какие слова ярче всего характеризуют запрос и «спросить» именно их. Хороший поисковик, если он хочет выдать релевантные результаты, тоже вычислит, какие слова несут больше всего смысла в текстах и соответствуют запросам. Как получить численные ответы на вопросы о том, какие слова важнее других и что это значит, читайте в глоссарии «Системного Блока»