Так пятое или шестое место? Давайте попробуем с этим разобраться. Да и информационный повод отличный! Именно генерация новых геоданных была одним из главных направлений работы Гербария Московского университета в последние пять лет. В основном, эта деятельность шла в рамках создания «Атласа флоры России» по гранту РНФ (№ 21-77-20042), но не ограничивалась только этим. По сути, это развёрнутое изложение на русском языке тех результатов, которые чуть ранее были опубликованы в виде сжатой научной статьи в журнале Taxon.

А вообще, это классная традиция подводить итоги года в «Системном Блоке» — три года назад я писал о том, как мы зарядили волонтерский модуль в Цифровом гербарии МГУ, а год назад сделал обзор текущего состояния нашей базы данных. Итак, в этот раз — про нашу библиотеку геопривязок.
Что такое геопривязка?
О чём, собственно, речь? В коллекциях мира в результате многовековой работы ботаников и естествоиспытателей накопилось 402 267 414 гербарных образцов, каждый из которых состоит из двух частей — (1) высушенного, аккуратно расправленного и запрессованного сухого растения и (2) этикетки, на которой указывается различная информация о месте, времени, авторе сбора, определении растения и, иногда, какая-либо дополнительная информация.
Место сбора с постепенным развитием науки указывалось всё точнее. В середине XVIII века это были указания типа ex Tataria («из Татарии», т. е. Сибири), Kamtschatka («Камчатка») и другие регионы площадью в сотни тысяч, если не в миллионы квадратных километров.

Постепенно точность географической информации росла. Так, в начале XIX века образцы московской флоры из Гербария МГУ могли иметь указания, например, Montes pass[erines] («Воробьевы горы»). Весь XIX век, как правило, указывался ближайший топоним — например, населенный пункт, а в ненаселенных местностях — гора или река. Такая традиция до сих пор осталась в ряде гербариев, которые документируют флору местностей с большим числом топонимов на небольшой территории. Например, в Гербарии Никитского ботанического сада весь ХХ век встречались указания на этикетках типа «Мыс Мартьян», «Роман-Кош» и проч.
Во второй половине ХХ века регулярно на этикетки стали попадать географические координаты — в тот момент, «снятые» с карт, не очень точные и одинаковые для всех гербарных сборов из какого-нибудь пункта работ отдельной экспедиции. Например, в Новосибирске это стало почти обязательным требованием уже в 1970-е гг.
В самом начале XXI века в массе появились портативные навигаторы, и сейчас уже трудно найти этикетку, где не указаны координаты места сбора с точностью до секунд.
В эпоху оцифровки коллекций для каждого гербарного образца в базе данных необходимо указать координаты места сбора (желательно вместе с параметром «точность геопривязки»), а это становится нетривиальной задачей на стыке наук о жизни (все-таки мы привязываем к карте ботанические коллекции), наук о Земле (работа со спутниковыми снимками, картами и координатами) и источниковедения (нужно исключительно хорошо знать номенклатуру доступных карт примерно за 200 лет и иметь представление о том, в каких регионах какая обеспеченность историческими картами). Не мешает владеть различными языками — например, уверенно читать текст этикеток по-албански, по-эстонски и (неизбежно) по-китайски.

Так что геопривязка — это и процесс поиска места сбора того или иного образца по доступным источникам, и результат — введенная в базу данных пара координат. Процесс чрезвычайно трудозатратный, но, в итоге, вводящий тот или иной образец в мировой круговорот открытых электронных данных о биоразнообразии.
Сколько у нас геопривязок и где мы их берем?
Итак, на 11 декабря 2025 г. в датасете Гербария Московского университета, который размещен на площадке Global Biodiversity Information Facility (GBIF), содержится 840 338 геопривязок. Ими обеспечено 76% образцов (всего у нас оцифровано 1 103 620 образцов). Так что далеко не у каждого образца из Гербария Московского университета, который отсканирован и размещен в открытом доступе, имеются координаты. Это процесс, который занимает время, и работа по полному покрытию коллекций геоданными ведётся постоянно. Например, за 2025 год мы добавили 48 тыс. новых геопривязок.
Все геопривязки, которые у нас имеются, делятся на четыре категории: (1) взятые напрямую из этикеток; (2) установленные вручную для конкретного образца (или группы образцов с одинаковым текстом этикетки); (3) установленные автоматически в результате работы алгоритма ИСТРА; (4) образцы, у которых геопривязка невозможна в принципе. Подробности можно прочитать здесь, но кратко про эти категории можно сказать следующее.
(1) Геопривязки взяты напрямую с этикеток. Этикетки свежих образцов, как правило, содержат в явном виде географические координаты места сбора. Они вводятся в табличном виде операторами ввода этикеточных данных. В поле «Оператор геопривязки» при этом выбирается стандартный параметр «Коллектор». С декабря 2022 г. такой ввод осуществляется волонтерами в модуле «Помогатор» с автоматическим контролем ошибок на основании двойного независимого ввода данных.
Доля коллекций, которые непосредственно в этикетках содержат координаты места сбора, неуклонно растет. Стремление коллекторов, которые передают свои сборы в Гербарий МГУ, к точности и надежности документации находок можно продемонстрировать такими цифрами: в 2000 г., когда портативные GPS-приемники только стали появляться, 39,5% собранных образцов имели координаты в этикетках; в 2005 г. таковых уже было 55,2%; в 2010 г. эта доля выросла до 60,3%; а к 2015 г. дошла до 78,0%, сохраняясь примерно на том же уровне до самого последнего времени.
Формат записи географических координат на этикетках, поступающих на монтировку, самый разнообразный: 55,755831° (градусы), 55°45,35′ или 55°45′ (градусы и минуты), 55°45′20,99″ или 55°45′21″ (градусы, минуты и секунды), а также редкие случаи более экзотической записи форматов и непредсказуемых ошибок форматирования координат. При этом коллекторы используют как округление значений, так и, напротив, недопустимо большую точность, которая превосходит погрешность самих приборов. Среда Цифрового гербария МГУ работает со всеми форматами записи, преобразуя в вид, указанный в настройках пользователя. В GBIF данные импортируются строго в градусах в виде десятичной дроби с точностью до шестого знака после запятой.


(2) Геопривязки установлены вручную для конкретного образца или группы образцов с одинаковым текстом этикетки. Ручная геопривязка — это установление места сбора конкретного образца с использованием корпуса исторических и современных картографических и справочных материалов, которые широко представлены в открытом доступе в интернете. Кроме того, для каждой ручной геопривязки устанавливается значение точности геопривязки. Массив ручных геопривязок — результат работы свыше 60 операторов, которые в разное время в качестве основной работы или в ходе решения научно-исследовательских задач осуществляли геопривязку образцов из фондов Гербария МГУ. При этом половину ручных геопривязок сделали три человека.
Для осуществления этого этапа ключевыми исходными данными являются, как правило, не изображения образцов, а расшифрованные и введенные в систему транскрипции текста этикеток. В Цифровом гербарии МГУ используется строгий протокол ввода этикеточных данных, который позволяет жестко унифицировать процедуры ввода различными операторами с минимальными разночтениями. Так, например, используется единое текстовое поле «Вся география и экология (текст этикетки)», а страна и административные единицы устанавливаются, как правило, автоматически на основе введенных координат.
Операторы ручной геопривязки в качестве исходных данных работают с табличными расшифровками текста этикеток, ограничиваясь выборкой образцов по какому-нибудь району или отделу гербария. Это позволяет быстро выявлять повторяющиеся топонимы и восстанавливать маршруты конкретных исследователей, что уменьшает время ввода и повышает качество взаимной геопривязки близко расположенных пунктов работ. Сортировка по дате сбора позволяет устанавливать у анонимных сборов фамилию коллектора, опираясь на место сбора и почерк на этикетке. В целом, сортировка по тексту этикетки ускоряет работу, позволяя выявить одни и те же локации, где в разные годы работали разные коллекторы.
(3) Геопривязки установлены автоматически в результате работы алгоритма ИСТРА. На сегодняшний день ИСТРА в фоновом режиме объединяет все образцы из базы в группы по паре «коллектор — дата» с дополнительной нормировкой по географическим районам гербария. На ручную геопривязку отправляется один образец из группы, а все образцы, собранные коллектором в течение одного дня, привязываются к одному и тому же месту сбора. Такие автоматически сгруппированные и привязанные к карте образцы получают особую пометку в базе, и постепенно их место сбора может уточняться за счет ручной геопривязки.
Для обеспечения работы алгоритма ИСТРА еще в июле 2018 года силами коммерческого партнера был осуществлен массовый ввод пары «коллектор — дата» для 80% образцов Гербария Московского университета. По сути, эти данные были введены для всех образцов, в которых единственная дата сбора и фамилия коллектора были указаны однозначно и полно, однако без нормоконтроля, т. е. однозначного сопоставления указанной фамилии коллектора и конкретного человека, что является трудной задачей. На следующий день система ИСТРА автоматически привязала к карте 63 тыс. образцов и общее число геопривязок составило 217 971 штук — каждый четвертый оцифрованный образец Гербария МГУ получил в тот момент метку на карте.
Подход со вводом пары «коллектор — дата» в качестве обязательных метаданных позволил, с одной стороны, добиться группировки массива по описанным принципам, а с другой стороны — систематизировать дальнейшую выдачу образцов на ввод полного текста этикеток. Так, операторам ввода текстовых данных отправляется теперь строго отсортированная выборка образцов, день за днем представляющая сборы одного и того же исследователя. Операторы заметно улучшили качество ввода текстовых данных, поскольку у них появилась возможность разобраться с почерком одного и того же человека, вводить повторяющиеся топонимы, а зачастую — копировать текст этикеток, которые выдаются на ввод в хронологическом порядке.
Система ИСТРА работает не только с образцами Гербария Московского университета, а охватывает все коллекции участников консорциума. Это позволяет создать единую сеть данных, полностью включающую как оригинальные коллекции каждого гербария, так и дублеты, поступающие из других коллекций. Кроме того, любая геопривязка, внесенная в систему любым участником консорциума, пополняет общую библиотеку референсных геоданных, необходимых для работы системы ИСТРА. Инструменты и протоколы автоматического и полуавтоматического поиска и исправления ошибок (как внутри платформы, так и в GBIF) позволяют поддерживать чистоту массивов данных от взаимных нестыковок.


Сейчас доля автоматически проставленных геопривязок в Гербарии МГУ составляет 41% и постепенно снижается за счёт ввода ручных геопривязок и координат с этикеток.
(4) Кроме того, имеется относительно небольшая группа образцов, у которых установить геопривязку принципиально невозможно. Это связано с отсутствием указаний места сбора на образце или лишь с самыми общими указаниями. Вот реальные примеры текста этикеток образцов из европейской части России, которые получили пометку о невозможности геопривязки: Deserto; Gouv. Ssamara. Steppenabhang; «Астраханская обл. Полузакрепленные пески»; «В лесах, в кустарниках»; «В лесу, под пологом»; «Встречается по всей ИПО, как спец[иализированный] сорняк оз[имой] ржи, реже в друг[их] культурах»; «Жел. дорога. Часто»; «Иваново-Вознесенская губерния»; «Костромская обл.»; «Курская губ.» и т. д.
Кто выше нас?
Сначала о самых общих цифрах: 128 309 333 гербарных образца переведены в той или иной мере в электронный вид. Это примерно 32% от их общего числа, впрочем, данные неточны: не все гербарии зарегистрированы в Index Herbariorum, сведения о коллекциях могут быть завышены или занижены, данные об одном и том же образце дублироваться в разных базах, а оцифрованные коллекции не выложены в открытый доступ. Сама глубина оцифровки может радикально отличаться: в идеале, это высококачественное изображение и полный набор метаданных, включая транскрипцию этикетки и координаты места сбора. На деле, чего-то из этого может недоставать.
Если брать образцы с координатами, то их в открытом доступе находится 62 105 224 штуки — иными словами, 48% оцифрованных образцов имеют метки на карте. Или 15% от того, что лежит в шкафах. Очень неплохая выборка, надо сказать. Давайте посмотрим, кто является лидером в обеспечении мирового научного сообщества открытыми пространственными данными о разнообразии растений.
1) Гербарий Миссурийского ботанического сада (MO), США
По датасету: 2 791 440 геопривязок
По коду коллекции: 2 797 392 геопривязки

Миссурийский ботанический сад — одно из первых учреждений, широко внедривших компьютерную обработку данных. Их база TROPICOS создается с 1982 года, и основным источником ее пополнения были этикетки свежих гербарных сборов, которые поступали в коллекцию. Каждый образец, поступивший в Миссурийский гербарий, еще до включения в фонды вносился в базу и снабжался стандартной этикеткой, сгенерированной из введенных сведений. Почти всегда там были ещё и координаты мест сбора.
Это ведущая в мире коллекция по тропикам Нового Света. Так что большинство привязанных к карте образцов происходят из Перу, Эквадора, Мексики, Коста-Рики и Боливии.
2) Гербарий «Натуралис» (L et al.), Нидерланды
По датасету: 2 059 047 геопривязок
По коду коллекции: нет данных

Гербарий «Натуралис» объединил несколько университетских голландских гербариев (Лейден, Вагениген, Утрехт, Амстердам) — они были перевезены в единое новое хранилище в Лейдене и обеспечены бюджетом на оцифровку коллекций. Впрочем, по сути, этот гербарий является приемником Гербария Лейденского университета, который на момент объединения был самым крупным. В нём так же, как и в Миссури, в обязательном порядке использовалась практика создания этикеток из базы ещё до монтировки образцов.
Сейчас этот гербарий является единственной крупной коллекцией в Нидерландах, поэтому четверть геопривязок относится именно к сборам из этой страны. Далее следуют Индонезия, Малайзия, Папуа — Новая Гвинея и Таиланд, поскольку именно этот регион был в фокусе внимания голландских ботаником ещё со времени колониального освоения Юго-Восточной Азии и прилегающих островов.
3) Гербарий Нью-Йоркского ботанического сада (NY), США
По датасету: 1 529 424 геопривязки
По коду коллекции: 1 910 847 геопривязок

В США два очень крупных и исключительно быстро растущих гербария — Миссури (MO) и Нью-Йорк (NY), при этом по объему фондов нью-йоркский гербарий немного крупнее.
В Нью-Йорке геопривязка фондов сосредоточена на двух странах — США (более 710 тыс.) и Бразилии (около 327 тыс.). Наличие в этом коротком списке Бразилии — это результат реализации крупного проекта REFLORA, в рамках которого Бразилия репатриирует в электронном виде те гербарные коллекции, которые были собраны и вывезены исследователями в США и Западную Европу. Таким образом, оцифровка сборов из Бразилии в крупнейших гербариях мира ведётся за счет (и в интересах) государственных структур самой Бразилии. Кстати, наличие столь большой нестыковки между числом геопривязок в основном датасете и по коду коллекции — результат того, что данные в REFLORA во многом дублируют основной датасет (261 тыс. из 293 тыс. записей из Нью-Йорка в REFLORA имеют дубли в других датасетах).
4) Гербарий Лундского университета (LD), Швеция
По датасету: 1 043 090 геопривязок
По коду коллекции: 1 043 738 геопривязок

Гербарий Лундского университета — не самый большой в Швеции, однако заметно опережающий Стокгольм и Упсалу по тщательности оцифровки и геопривязки фондов.
Географически привязанные к карте образцы происходят из Швеции (около 685 тыс.) и Греции (около 130 тыс.), в пятерке также другие скандинавские страны — Норвегия, Финляндия, Дания. Это результат как работы в национальных интересах по картированию шведской флоры, так и длительных исследований сотрудников в Греции.
5) Гербарий Московского университета (MW), Россия
По датасету: 840 911 геопривязок
По коду коллекции: 844 748 геопривязок

Поскольку работа над картой шла в рамках создания «Атласа флоры России», то по числу геопривязок именно сборы из России абсолютно преобладают (677 394 штуки с учетом Крыма и новых территорий или 646 449 штук в границах на 01.01.2014 г.). Также в Гербарии МГУ много образцов с геопривязками, происходящих из Украины, Казахстана, Монголии и Киргизии.
Впрочем, мы исключительно быстро растём. Так, в 2025 г. в фонды Гербария МГУ было добавлено 17 590 образцов сосудистых растений с такой раскладкой по отделам:
- Восточная Европа — 5 594 образца,
- Кавказ — 4 031,
- Сибирь и Дальний Восток — 4 167,
- Средняя Азия — 1 236,
- Зарубежная Азия — 1 138,
- Западная Европа — 653,
- Крым — 267,
- Австралия — 253,
- Африка — 128,
- Америка — 123.
Гербарий мохообразных пополнился 777 образцами. Таким образом, общий рост коллекций составил за год 18 367 образцов. Все коллекции опубликованы на сайте Цифрового гербария МГУ.
6) Гербарий Королевского ботанического сада Кью (K), Великобритания
По датасету: 810 120 геопривязок
По коду коллекции: 924 315 геопривязок

Королевский ботанический сад Кью близ Лондона обладает исключительно крупной и хорошо организованной гербарной коллекцией. Долгое время считалось, что это второй по величине гербарий мира после парижского, однако полное сканирование фондов сосудистых растений показало, что как минимум в этой группе образцов в Кью (5 880 862) в электронном виде учтено все же чуть больше, чем в Париже (5 614 572).
И вот тут мы переходим к числу геопривязок: все же, кто выше — Гербарий МГУ или Гербарий Кью? Давайте попробуем разобраться. Итак, что касается геопривязок, то в основном датасете в Кью их заметно меньше, чем в Гербарии МГУ (810 тыс. против 841 тыс.). Если же ориентироваться на «код коллекции», то образцов с координатами в Кью гораздо больше (924 тыс. против 845 тыс.). С чем это связано?
Образцы из Кью по линии различных международных проектов и совместных экспедиций фигурируют в самых разных датасетах. Например, в не-миссурийской части TROPICOS образцов из Кью свыше 70 тыс. (впрочем, из них 56 тыс. дублируют другие датасеты), а в упомянутой REFLORA — еще 38 тыс. (свыше 33 тыс. — дубли). Получается, что без учета дублей в Кью все же чуть меньше геопривязок, чем в Гербарии МГУ. Впрочем, по всей видимости, их датасет растёт чуть быстрее нашего — о том, что Кью опередил (ну, или почти догнал) нас стало известно только в тот момент, когда мы опередили австралийцев.
Образцы с геопривязками из Кью равномерно покрывают весь земной шар, но, всё же, чуть больше их сделано для Бразилии, Мадагаскара, Австралии, Индонезии и Малайзии.
Особый случай: Гербарий Ботанического института АН КНР (PE), КНР
По датасетам: 1 048 903 геопривязки
По коду коллекции: 1 049 846 геопривязок

Формально Пекинский гербарий находится на четвертом месте в мире, но с одной очень важной оговоркой: в КНР нельзя публиковать и использовать точные геоданные. Так что это вовсе не геопривязки мест сбора конкретных гербарных образцов, а координаты райцентра того района, где они были собраны. Во всяком случае, именно в таком виде они публикуются в открытом доступе.
Посмотрите на карту — на востоке страны, это, может, и не такая уж плохая точность (всего на этой карте отображено 27 548 уникальных пар координат), а вот западная половина Китая оказывается при таком подходе максимально дырявой, ведь от одного райцентра до другого в Синьцзяне или на Тибете сотни и сотни километров. Добавлю, что около 98% образцов с координатами из Пекинского гербария происходят из КНР.
Кого же мы обошли? И кто может обойти нас?
Постепенное накопление геоданных позволяло нам время от времени поглядывать на мировой рейтинг гербариев по числу геопривязок. За последние три года мы обошли шесть австралийских гербариев и один южноафриканский.
Чтобы выйти на пятое место, после очередной заливки данных мы буквально на днях обошли Мельбурн (сейчас у них 839 466 геопривязок) и Канберру (838 057 геопривязок). Чуть ранее та же участь постигла Перт (775 402 геопривязки), Брисбен (732 846 геопривязок), Аделаиду (703 040 геопривязок) и Сидней (688 649 геопривязок). Итак, внимание: шесть австралийских гербариев входят в топ-15 в мире по числу геопривязок. Это результат создания и развития обширной программы по созданию государственного «Атласа» (Atlas of Living Australia). Среди недавно обойдённых также Претория (805 880 геопривязок) — крупнейший гербарий в исключительно разнообразном Капском флористическом царстве.
Из тех гербариев, которые семимильными шагами продолжают оцифровку и геопривязку коллекций отдельно следует упомянуть Смитсониан в Вашингтоне (712 117 геопривязок) — это, наряду с Кью, тот гербарий, который рано или поздно нас обгонит по этому показателю. Впрочем, посмотрим. Где-то недалеко также Чикаго (616 964 геопривязки), Осло (613 257 геопривязок) и Брюссель (612 794 геопривязки), где работа, как и в Гербарии МГУ, продолжается.
Зачем это нужно?
Систематика растений очень тесно связана с географией — ареал вида является одной из ключевых его характеристик. Для рутинного изучения отдельных видов растений, с одной стороны, также как и для глобальных обобщений о том, как устроено биоразнообразие на планете, с другой стороны, нужны пространственные данные. И если раньше исследователи самостоятельно ставили карандашиком место сбора изученного ими образца на контурной карте, а затем для публикации делали карту ареала тушью, то сейчас исходный материал лежит в машиночитаемом виде в открытом доступе и может легко проискиваться и обрабатываться.
Как правило, эта работа идет в рамках национальных проектов по картированию биоразнообразия (см. выше про Бразилию, Швецию и КНР), международных инициатив и отдельных научных проектов небольших исследовательских групп. В любом случае, эти данные затем попадают в GBIF и повторно привязывать к карте образец, который уже был привязан кем-то, нет необходимости.
Процесс ускоряется в связи с тем, что сбор новых образцов сразу документируется в электронном виде: например, мои сборы, сделанные в 2024 и 2025 гг. и переданные в Гербарий МГУ, уже имеют метку на карте.
В заключение: любой желающий может помочь нам в наполнении базу данных геопривязками. Конечно, мы не ожидаем от волонтеров быстрого и уверенного ориентирования в названиях якутских рек на картах 1930-х гг., однако аккуратно ввести координаты с гербарной этикетки и посмотреть, куда эта точка попадает на карту, может каждый. Главное — пройти 10-минутное обучение и запастись терпением. Также в наполнении библиотеки геопривязок очень помогает ввод пары «коллектор — дата» для каждого образца. На этих данных основана работы модуля автоматической геопривязки ИСТРА. В общем, если кому-то это вдруг стало интересно — заходите в «Помогатор».
Важное уточнение. Все цифры, приведенные здесь, верны на 11.12.2025. Накопление и публикация геоданных о разнообразии растений — чрезвычайно конкурентная и очень подвижная область. Живые ссылки на GBIF помогут отслеживать изменения в будущем.