Я студент магистратуры, и для дипломной работы к середине мая мне нужно собрать как можно больше примеров написания 583 разных слов. Это слова, используемые в названиях по меньшей мере 700 видов птиц, большинство из которых встречается на территории России.
Собранные примеры станут основой датасета (набора данных) для обучения нейронной сети, которая будет распознавать рукописные названия птиц. С помощью этой нейронной сети я планирую создать приложение, позволяющее оцифровывать полевые заметки и другую рукописную информацию о птицах.
Кроме того, собранный датасет будет доступен для использования в некоммерческих целях. Любой человек сможет использовать его бесплатно в своих исследованиях и работах.
Если вы хотите принять участие в этом проекте, ниже вы найдете несколько пояснений и ответов на вопросы.
Чтобы поучаствовать в создании датасета, нужно выполнить 3 шага:
По ссылке Общий список - шаблон (pdf-файл для распечатки) можно скачать файл с таблицей, которая содержит все необходимые слова и места для их написания. Лучше всего распечатать эту таблицу (весь шаблон занимает 4 листа при двусторонней печати) и заполнить ее.
Если нет возможности распечатать шаблон, можно написать слова на любых листах бумаги, ориентируясь на список слов:
Также можно скачать список в виде текстового файла:
На написание и сканирование/фотографирование всех слов уходит примерно час-полтора.
Не обязательно иметь хороший почерк: нужны примеры того, как пишут реальные люди. Разные варианты написания одной и той же буквы, разные расстояния между буквами, небольшие исправления более чем приветствуются.
Нет. Можно писать любым инструментом: ручкой, карандашом, фломастером и т. п. То же самое относится и к бумаге: распечатать шаблон или просто написать слова можно на чистом листе, листе в клетку, линию, серой или желтой бумаге. Главное, чтобы написанные вами слова легко читались.
Пожалуйста, пишите все слова строчными (маленькими) буквами, как в списке.
Что касается печатных и прописных букв: подойдут и те, и другие. Пишите так, как обычно пишете: полностью прописными буквами, полностью печатными или комбинацией из тех и других букв.
Ничего!
Переписывать такие слова не нужно - при обработке для них будут созданы метки, соответствующие реальному слову на изображении, поэтому на обучение нейросети это не повлияет.
Сгибать листы или оставлять на них пометки, помарки и пятна можно, это не повлияет на обработку изображений.
Также не страшно, если на листе заметен текст, просвечивающий с другой стороны бумаги.
Располагайте слова на бумаге так, как удобно вам: друг за другом, в один столбик, в несколько столбиков. Главное, чтобы слова шли в том порядке, в котором они перечислены в списке. Если вдруг пропустите несколько слов, можно будет дописать их в конце.
Также важно, чтобы слова не были написаны слишком близко друг к другу. Каждое слово должно помещаться в "рамку", в которую не попадают элементы других слов. Это необходимо для разбиения листов на небольшие изображения отдельных слов.
Пожалуйста, убедитесь, что слова на фото или скане легко читаются, не смазаны, не выходят за пределы фотографии.
Если вы используете сканер, выбирайте наилучшее доступное разрешение. Сохранять файл можно в любом формате: png, jpeg, pdf и т. п.
Если фотографируете заполненный шаблон, важно, чтобы линии таблицы на фото были более-менее прямыми. Если бумага сворачивается, можно прижать углы листов чем-нибудь тяжелым.
Отправляйте результаты в виде файлов на почту handwritten.birds@gmail.com.
Большое спасибо за то, что уделили свое время этому проекту.
Пожалуйста, расскажите о нем знакомым, которым может быть интересно поучаствовать в создании датасета.
Если у вас остались вопросы, отправляйте их на почту handwritten.birds@gmail.com.