Цифровой Гербарий МГУ
|
Plantarium online plant identification guide |
|||||||||||||||||||||||||||||||||||||||||||||||||||
Help and manuals |
|
Natalia Gamova | 10.01
За кулисами Цифрового гербария МГУ
Этот небольшой иллюстрированный рассказ о том, как мы готовим первичные метаданные перед публикацией новых сканов.
Метаданные - это текстовая структурированная информация, которая используется для правильной интеграции изображения в онлайн-версию портала. В Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) обязательными метаданными являются три параметра: 1) номер образца по штрихкоду, 2) принятое в коллекции название таксона, 3) один из 60 географических районов гербария. Уже потом они "обрастают" привязкой к странам и регионам, полным текстом этикеток и, наконец, координатами мест сбора.
Ввод кратких метаданных - это очень ответственная процедура. Малейшая ошибка, и образец уже никогда не будет найден среди миллиона других листов. Детали должны сойтись "до копейки": все новые образцы (а их от 15 до 20 тыс. в год) должны иметь сведения в таблице метаданных и, наоборот, все записи в таблице метаданных должны соответствовать единственному скану.
Итак, по порядку.
1) Сразу после монтировки сотрудники надписывают карандашом на образце два кода: индекс рода в правом нижнем углу... (здесь "9339" - индекс ромашки)
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() |
Anatoliy Kuzmin | Наталья, просветите!
Возможно ли отсортировать по автору сбора, по дате сбора? |
Natalia Gamova | ..а что в первую очередь интересует - сборы одного автора или вид какой-то?
Вообще, со страницы https://plant.depo.msu.ru/ можно перейти на поиск по этикеткам https://plant.depo.msu.ru/module/plantitemsearchlabelpublic
Но выдать, конечно, может только то, что внесено в базу в эл. виде (а этикетки пока есть примерно у 75 тыс. сборов ..)
Или я неточно поняла вопрос?
Если так - уточните. пожалуйста |
Anatoliy Kuzmin | Спасибо, всё нашёл и понял. То, что меня интересует, видно ещё не внесено. |
Natalia Gamova | Немножко нового.
03.02.18.
Герани Сибири
(первое обновление базы данных этикеток в 2018 году)
В 2017 году в Гербарии МГУ плодотворно работала В.И. Трошкина из Новосибирска (ЦСБС СО РАН) - специалист по многолетним гераням. Благодаря ее труду, почти 300 образцов получили уточненные определения.
Виктория согласилась поучаствовать в создании полнотекстовой базы данных Цифрового гербария МГУ. На портал ( https://plant.depo.msu.ru/ ) мы загрузили текстовые расшифровки 700 этикеток гераней Сибири и Дальнего Востока. Это еще один шаг на пути к "Чеклисту флоры России" и "Атласу флоры России", где каждая запись в базе данных будет подкреплена конкретным гербарным образцом. |
Natalia Gamova | 07.02.
Центральная Камчатка: полные этикетки 1400 образцов
(второе обновление базы данных этикеток в 2018 году)
Известный исследователь флоры Камчатки В.В. Бурый давно сотрудничает с Гербарием МГУ. Но вот беда: на окраинах нашей огромной страны скорость интернета не позволяет эффективно работать со сканами Цифрового гербария МГУ. Для удалённой (во всех смыслах) работы мы поделились с Владимиром офлайн выгрузкой из 25 тыс. сканов с северо-востока России.
На днях Владимир аккуратно внёс в базу данных этикеточную информацию всех сборов с Центральной Камчатки, обнаружив в фондах несколько новых и редких для этого района видов. Теперь этот массив данных был опубликован на нашем портале https://plant.depo.msu.ru/ .
Осенью 2017 года Алексей Лапин сделал аккуратную геопривязку части массива того же района S7 (Чукотка, Камчатка, Магаданская область). Благодаря разработанной нашим программистом Олегом Платко системе ИСТРА ( https://www.msu.ru/science/main_themes/v-tsifrovom-gerbarii-mgu-zarabotala-sistema-avtomaticheskoy-geoprivyazki-istra.html ), большинство образцов с Камчатки, только что введенных в систему, были автоматически привязаны к карте. |
Natalia Gamova | 09.02.
Северо-Запад России: полные этикетки 2800 образцов
(третье обновление базы данных этикеток в 2018 году)
Основу фондов Гербария Московского университета составляют сборы с территории России. Именно российские коллекции в фокусе нашего постоянного внимания при вводе новых полнотекстовых данных. В середине ноября 2017 г. мы загрузили в Цифровой гербарий МГУ ( https://plant.depo.msu.ru/ ) 940 этикеток с Северо-Запада России. Это Калининградская, Тверская, Новгородская, Псковская, Ленинградская области и Санкт- Петербург. Благодаря усилиям Ирины Мельник к ним вчера добавлены еще 2,800 записей.
Район Е2 нашего гербария когда-то включал и сборы из Прибалтики - Литвы, Латвии и Эстонии. В начале 1990-х гг. район был разделен на четыре части согласно государственным границам, однако некоторые образцы не были переложены верно. Да и попробуйте найти на карте, где находится сейчас Heiligensee или Camby с пометкой "Ост-Зейские губернии". В общем, задача по оцифровке этикеточных данных района E2 включала в себя и более сложную частную задачу - убрать всё лишнее. Сотни листов "уехали" в Латвию, десятки - в Эстонию, немногое - в Литву, Белоруссию и на Русский Север.
Благодаря аккуратной "чистке" массива, Гербарий Московского университета сейчас является крупнейшей точкой доступа к сканам гербарных образцов не только с Северо-Западной России, но и из сопредельных стран - Латвии (3349 листов), Литвы (588) и Белоруссии (5304). А вот эстонские национальные коллекции уже давно переведены в цифру - об этом свидетельствуют и данные GBIF, которые представлены на карте. Есть над чем работать! |
Yuri Postnikov | Наталья, вся ваша команда - вы молодцы. |
Natalia Gamova | 10.02
ИСТРА: второе издание
На прошедшей неделе вышел долгожданный релиз улучшенного алгоритма ИСТРА. Издание второе, переработанное и дополненное. Автор: Олег Платко.
ИСТРА - это Интеллектуальная Система Топонимического Распознавания и Атрибутирования. Она была разработана для того, чтобы не делать много раз (да еще и с разным результатом) одну и ту же работу - геопривязку образцов, собранных в одном и том же месте (или в один и тот же день) одним и тем же коллектором.
Исходная логика простая: если в базу данных Цифрового гербария МГУ ( https://plant.depo.msu.ru/ ) для одного из образцов уже внесена ручная геопривязка, то ИСТРА ищет и находит этикетки с идентичным текстом и ставит им точку на карте автоматически. Чем больше этикеток в базе, тем больше вероятность того, что привязывать вручную надо будет лишь небольшую долю "базовых" (референсных) образцов.
Оптимизация алгоритма позволила проставить еще 4 тысячи геопривязок: статистика на 8 и 9 февраля (до и после обновления) дана на картинке. Это еще один шаг на пути к "Атласу флоры России".
![]() |
Natalia Gamova | 11.02
Кардиограмма Гербария МГУ: пульсация поступлений по годам
На портале https://www.gbif.org/ у каждого загруженного массива теперь можно посмотреть базовую статистику в виду таблиц и графиков. Она доступна в разделе "Metrics".
На представленном рисунке показано ежегодное поступление гербарных материалов, установленная по датам сборов. Отмечу, что из 911 тыс. наших образцов только у 9% (85,468 листов) в базу данных внесена дата сбора. Тем не менее, выборка сейчас уже вполне репрезентативная и общие тренды останутся примерно такими же. Разве что ямы 1918-1922 и 1942-1945 гг. станут еще более выраженными.
Статистика за 2015-2017 гг. пока недостоверна.
Источник: https://www.gbif.org/dataset/902c8fe7-8f38-45b0-854e-c324fed36303/metrics
![]() |
Vladislav Grigorenko | Наталья Гамова wrote: В последние дни неоднократно заглядывал в среднеазиатский раздел и был немного удивлён количеством листов без государственной привязки. опубликован гербарий Средней Азии ![]() |
Natalia Gamova | Ну да, так и есть: ещё в работе ![]() |
Natalia Gamova | 15.02.
Обновление раздела "Ссылки" ("Links")
Вчера мы полностью обновили закладку "Ссылки" на главной странице Цифрового гербария МГУ ( https://plant.depo.msu.ru/ ). Этот раздел содержит перенаправления на доступное в сети описание истории и состояния оцифровки фондов Гербария Московского университета. Здесь есть статьи, презентации и блоги.
Вот, что можно найти сейчас в этом разделе
* Статьи
Цифровой гербарий МГУ – крупнейшая российская база данных по биоразнообразию (статья на русском, конец 2017 г.)
Гербарий Московского университета (MW) в 2015 году: первый год новой эры (статья на русском, начало 2016 г.)
Making the Russian Flora Visible: Fast Digitisation of the Moscow University Herbarium (MW) in 2015 (статья в журнале "Taxon", начало 2016 г.)
Гербарий Московского университета (статья в Википедии)
* Презентации
Цифровой гербарий МГУ: новые возможности (конец 2017 г.)
Moscow Digital Herbarium and the National Depository Bank of Live Systems Initiative (Russia) (presentation on IBC 2017, Shenzhen, China)
* Информационные блоги
Блог проекта "Цифровой гербарий МГУ" (vk.com)
Страница проекта "Цифровой гербарий МГУ" на ResearchGate
* Наша страница в GBIF
Moscow University Herbarium (MW). Occurrence Dataset
![]() ![]() |
Natalia Gamova | 16.02
Средняя Россия: пара "коллектор - дата" для 17,500 образцов
(четвертое обновление базы данных этикеток в 2018 году)
Сегодня большой день. В наш мартен, выплавляющий новые геоданные, с ночи мы загрузили колоссальный свежий массив. Для нашего Центрального района (он же E4: Владимирская, Рязанская, Тульская, Калужская области) мы опубликовали ключевые метаданные с этикеток 17,5 тыс. образцов. Это примерно половина фондовой коллекции E4.
В нашей базе уже есть 6 тыс. геопривязок из этих областей (они на карте). Алгоритм ИСТРА ( https://www.msu.ru/science/main_themes/v-tsifrovom-gerbarii-mgu-zarabotala-sistema-avtomaticheskoy-geoprivyazki-istra.html ) по совпадению пары полей "Коллектор" и "Дата" между новыми и уже привязанными к карте образцами позволил сделать быструю привязку. Отмечу, что это не точное определение координат, а лишь результат работы вероятностного алгоритма. Такие образцы снабжаются особым значком в выдаче (серый глобус), что предупреждает потенциального пользователя о том, что данные не верифицированы вручную.
По итогам загрузки, общее число привязанных к карте образцов в Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) превысило 50 тыс. штук! Сегодняшняя цифра 52,788.
Немного статистики по коллекторам. В базе данных из Центрального района сейчас числится 4,800 образцов, собранных В.Н. Тихомировым, и 1,200 сборов, сделанных В.С. Новиковым. Это преимущественно коллекции со студенческих практик времен Мещерской экспедиции Ботанического сада МГУ. Что уж скрывать: студенты почти всегда вписывали Тихомирова в соавторы сбора, когда проходили практику под его руководством.
![]() |
Nikolay Stepanov | Переопределил ряд хохлаток в Сибирском отделе гербария неделю назад, но реакции ноль. Или прошли определения, или нет ![]() |
Natalia Gamova | Николай Витальевич, смотрите почту.
А в общем виде ответ А.П. такой:
переносы согласно поступившим в системе уведомлениям о переопределении проводятся разом за месяц или чуть больший срок; так получается проще.
Но всё работает, все сообщения поступают. |
Nikolay Stepanov | Ух, успокоили ![]() |
Natalia Gamova | 17.02.
Крым, Кавказ, Европейская Россия, Прибалтика: 4109 ручных геопривязок
(первое обновление базы геопривязок в 2018 году)
Вчера в систему были загружены геопривязки для 4109 пунктов сбора гербарных материалов. Число образцов, "накрытых" этой загрузкой в разы больше, благодаря предварительной агрегации сборов по пунктам - координатами снабжено почти 14 тыс. экземпляров.
Итак, исходным материалом для этого массива были полнотекстовые расшифровки мест сбора, загруженные в Цифровой гербарий МГУ с августа по декабрь 2017 года. Это Крым, Кавказ, Латвия, некоторые районы Европейской России и отдельные образцы из других мест. Эти образцы были агрегированы системой ИСТРА в группы по совпадению текста этикеток. Таких групп было около 10 тысяч, в каждой из них - от 2 до 10 образцов.
Наш оператор Андрей Салмин вручную с использованием открытых картографических источников заполнял данные по локализации этих мест: N, E и точность привязки. Разумеется, у нас не было цели осуществить ковровую бомбардировку всего массива любой ценой, поэтому некоторое число пропусков осталось. Это забытые и утраченные топонимы, неточные привязки (только река, например) или загадочные ошибки, когда на расстоянии "5 км на юг от Симеиза" оказывается Черное море, а не можжевеловый лес.
В большой работе нужно привыкнуть делать две вещи: доверять коллегам и признавать ошибки. Если вдруг Вы увидите, что метка на карте явно не соответствует тексту этикетки, дайте нам знать через форму "Сообщить об ошибке". Мы обязательно (пусть и не сразу) все поправим.
Всего в Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) уже 66,519 образцов имеют метки на карте. |
Natalia Gamova | 20.02.
Киргизия или Казахстан?
(первое обновление государственных привязок в 2018 г.)
Отдел Средней Азии в Гербарии Московского университета особенный. Это единственная часть гербария, которая внутри географически организована не по принципу административных границ, а по физико-географическим выделам.
![]() MAsia_MW_Herbarium.jpg |
Natalia Gamova | 21.02. Чукотка и Камчатка: 1590 ручных геопривязок
(второе обновление базы геопривязок в 2018 году)
Вчера в систему были загружены ручные геопривязки для 1590 образцов из района S7. Число образцов, "накрытых" этой загрузкой несколько больше: благодаря автоматической геопривязке удалось установить координаты для части камчатских сборов, для которых ранее были внесены полные этикетки.
Исходным материалом для этого массива были сканы злаков в диапазоне штрихкодов MW0009544 - MW0019353.
Наш волонтёр Алексей Лапин вручную с использованием открытых картографических источников заполнял данные по локализации этих мест: N, E (а иногда и W - страна-то большая!) и точность привязки. Разумеется, некоторое число пропусков осталось. Это забытые и утраченные топонимы, очень общие описания или неоднозначные привязки (когда, например, на Чукотке есть 3-4 одинаковых топонима). Для каждого образца всегда указывались дата и коллектор, что поможет, возможно, отловить места сборов некоторых трудных коллекций в будущем.
В понедельник мы сделали еще два небольших вклада в базу геопривязок, о которых не сообщали отдельно. Был залит 271 образец с GPS-координатами из Крыма (сборы А.П. Серегина) и поправлена неточность в алгоритме-ридере, вытаскивающем фамилии из поля "Первый коллектор" (+664 привязки по ИСТРЕ).
В Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) число геопривязок неуклонно растет: 66,519 образцов имели метки на карте вечером 18 февраля; 67,275 - вечером 19 февраля и, наконец, 68,833 - вечером 20 февраля. За несколько дней мы сделали еще несколько шагов на пути "Атласу флоры России". |
Natalia Gamova | 23.02. Геоданные Цифрового гербария МГУ: 16 февраля vs. 23 февраля
Наш массив данных, публикуемый еженедельно через GBIF ( https://doi.org/10.15468/cpnhcc ), визуализируется на этом портале на картах и графиках. Две картинки показывают привязанные к карте данные на 16 февраля 2018 г.
![]() ![]() |
Оксана Великова | Наталья Гамова wrote:
Огромная работа! Наталья, подскажите, пожалуйста,-а что это в точности означает - "уехали" в Беларусь? По какой ссылке на них посмотреть можно?Сотни листов "уехали" в Латвию, десятки - в Эстонию, немногое - в Литву, Белоруссию и на Русский Север. Благодаря аккуратной "чистке" массива, Гербарий Московского университета сейчас является крупнейшей точкой доступа к сканам гербарных образцов не только с Северо-Западной России, но и из сопредельных стран - Латвии (3349 листов), Литвы (588) и Белоруссии (5304). |
Natalia Gamova | Это значит, гербарий хранился изначально в более крупном варианте районирования, и кто-то (давно, а иногда - очень давно) помещал сборы не туда, куда нужно. А при более дробном делении переносили в первую очередь этикетки с явными названиями, а старые не не очень внятные, как правило, оставляли в остатках того более общего названия, что было раньше.
Теперь разобрали всё прицельно и разложили точно в соответствии со всеми дробными выделами.
Регионы с обозначениями есть тут https://plant.depo.msu.ru/ - в справке расширенного поиска - код районов - https://plant.depo.msu.ru/resources/help/plantsearch/regions_ru.html
Белоруссия - E3a
Для поиска можно пользоваться расширенным поиском в https://plant.depo.msu.ru/ - там пишете интересующий вас вид и район - и выдаст результаты
Или можно версию https://plant.depo.msu.ru/open/public смотреть - там сразу галереей выдаёт и для распространённых видов ещё и с русскими названиями можно тоже искать
Вот например пишу: Полынь обыкновенная E3a - и результат https://plant.depo.msu.ru/open/public/search?searchBy=any&queryString=Полынь обыкновенная E3a |
Оксана Великова | Спасибо большое, Наталья! ![]() |
Natalia Gamova | Оксана, можете там в форме расширенного поиска написать только номер района - E3a - вот и будет всё сразу.
Или можно семейство вписывать, или род - любой уровень, который интересует. |
|
Feedback | To the top |