китайский язык

ИИ-библиотекарь на китайском: будущее библиотечной каталогизации

Как описать книгу на китайском языке, если вы не знаете китайского, а бюджет библиотеки сократили еще в прошлом году? 🏮🤖 В академических библиотеках по всему миру — кадровый голод: специалистов-синологов мало, а поток литературы из Восточной Азии только растет. На помощь приходит связка из LLM и векторных баз данных. В новом материале разбираемся, как GPT-бот на базе модели Text-embedding-3-small помогает превращать хаос иероглифов в четкие библиотечные записи формата FAST

В поисках утраченного: зачем восстанавливать гарнитуры доцифровой эпохи?

Несмотря на то, что времена ручного набора текста давно остались в прошлом, энтузиасты прилагают немалые усилия для восстановления аутентичных китайских шрифтов XX века. Ради этой цели они часами разыскивают книжные издания с нужными символами и даже прибегают к помощи искусственного интеллекта.

Как живут Digital Humanities в Китае: рассказ очевидца

Что происходит, когда методы открытой науки и алгоритмического анализа встречаются с тысячелетним китайским культурным наследием? Исследовательская группа из Болоньи отправилась в Пекин, чтобы узнать, как Digital Humanities развиваются в крупнейшем университете Китая. Мария Левченко, участница группы, рассказывает об итогах этой поездки.

Китайские шрифты в цифровом мире

Китайское письмо, появившееся более трех тысяч лет назад, — одна из древнейших письменностей в мире. Однако не менее интересна история китайских цифровых гарнитур и шрифтов. Вековые традиции каллиграфии, региональные особенности написания иероглифов и реформы Мао Цзедуна — все это повлияло на становление оригинальной классификации стилей шрифтов, в чем-то опирающейся на европейскую, а в чем-то уникальной.

Text-mining китайского языка: гайд по библиотеке Jieba

Китайский язык может быть очень сложно токенизировать, чтобы извлечь информацию из большого объёма текста: стандартные инструменты путаются в иероглифах. Рассказываем, как пользоваться библиотекой Jieba, которая помогает решить эту проблему.