Здравствуйте!

Я студент магистратуры, и для дипломной работы к середине мая мне нужно собрать как можно больше примеров написания 583 разных слов. Это слова, используемые в названиях по меньшей мере 700 видов птиц, большинство из которых встречается на территории России.

Собранные примеры станут основой датасета (набора данных) для обучения нейронной сети, которая будет распознавать рукописные названия птиц. С помощью этой нейронной сети я планирую создать приложение, позволяющее оцифровывать полевые заметки и другую рукописную информацию о птицах.

Кроме того, собранный датасет будет доступен для использования в некоммерческих целях. Любой человек сможет использовать его бесплатно в своих исследованиях и работах.

Если вы хотите принять участие в этом проекте, ниже вы найдете несколько пояснений и ответов на вопросы.


Как собирать данные?

Чтобы поучаствовать в создании датасета, нужно выполнить 3 шага:

  1. Написать на бумаге 583 слова (список слов будет ниже).
  2. Сфотографировать или отсканировать написанные слова.
  3. Отправить полученные изображения на почту handwritten.birds@gmail.com.

Какие слова нужно написать?

По ссылке Общий список - шаблон (pdf-файл для распечатки) можно скачать файл с таблицей, которая содержит все необходимые слова и места для их написания. Лучше всего распечатать эту таблицу (весь шаблон занимает 4 листа при двусторонней печати) и заполнить ее.

Если нет возможности распечатать шаблон, можно написать слова на любых листах бумаги, ориентируясь на список слов:

Также можно скачать список в виде текстового файла:

Сколько времени это займет?

На написание и сканирование/фотографирование всех слов уходит примерно час-полтора.

Для участия нужен хороший почерк?

Не обязательно иметь хороший почерк: нужны примеры того, как пишут реальные люди. Разные варианты написания одной и той же буквы, разные расстояния между буквами, небольшие исправления более чем приветствуются.

Ширину одних и тех же букв можно менять, чтобы уместить слово в шаблон.
Точки над "Ё" ставить необязательно.
Небольшое исправление буквы "Й" тоже не мешает читать слово.

Нужна ли какая-то особенная ручка? Специальная бумага?

Нет. Можно писать любым инструментом: ручкой, карандашом, фломастером и т. п. То же самое относится и к бумаге: распечатать шаблон или просто написать слова можно на чистом листе, листе в клетку, линию, серой или желтой бумаге. Главное, чтобы написанные вами слова легко читались.

Стандартная синяя ручка хорошо читается на серой линованной бумаге.
Черные чернила выделяются на фоне синей клетки.

Желтая ручка плохо читается на любом фоне.

Какими буквами нужно писать?

Пожалуйста, пишите все слова строчными (маленькими) буквами, как в списке.

Что касается печатных и прописных букв: подойдут и те, и другие. Пишите так, как обычно пишете: полностью прописными буквами, полностью печатными или комбинацией из тех и других букв.

Что делать, если написал(а) слово с ошибкой или слово не поместилось в шаблон?

Ничего!

Переписывать такие слова не нужно - при обработке для них будут созданы метки, соответствующие реальному слову на изображении, поэтому на обучение нейросети это не повлияет.

Можно ли сгибать распечатанные листы? Что, если листы запачкаются?

Сгибать листы или оставлять на них пометки, помарки и пятна можно, это не повлияет на обработку изображений.

Также не страшно, если на листе заметен текст, просвечивающий с другой стороны бумаги.

Как располагать слова на бумаге, если писать без шаблона?

Располагайте слова на бумаге так, как удобно вам: друг за другом, в один столбик, в несколько столбиков. Главное, чтобы слова шли в том порядке, в котором они перечислены в списке. Если вдруг пропустите несколько слов, можно будет дописать их в конце.

Все слова написаны в строку, друг за другом. Нумеровать слова не обязательно.
Слова написаны друг за другом в несколько столбцов.

Также важно, чтобы слова не были написаны слишком близко друг к другу. Каждое слово должно помещаться в "рамку", в которую не попадают элементы других слов. Это необходимо для разбиения листов на небольшие изображения отдельных слов.

Расстояние между словами достаточно большое.
Рамки пересекаются, но в каждой отдельной рамке нет посторонних элементов.

Две рамки пересекаются, и в них попадают элементы соседних слов.
Слова написаны настолько близко, что их невозможно разделить.

Как фотографировать/сканировать записи?

Пожалуйста, убедитесь, что слова на фото или скане легко читаются, не смазаны, не выходят за пределы фотографии.

Если вы используете сканер, выбирайте наилучшее доступное разрешение. Сохранять файл можно в любом формате: png, jpeg, pdf и т. п.

Если фотографируете заполненный шаблон, важно, чтобы линии таблицы на фото были более-менее прямыми. Если бумага сворачивается, можно прижать углы листов чем-нибудь тяжелым.

Бумага сворачивается, и вертикальные линии искривляются
Углы листа прижаты: вертикальные линии остаются прямыми

Как отправить результаты?

Отправляйте результаты в виде файлов на почту handwritten.birds@gmail.com.


Спасибо!

Большое спасибо за то, что уделили свое время этому проекту.

Пожалуйста, расскажите о нем знакомым, которым может быть интересно поучаствовать в создании датасета.

Если у вас остались вопросы, отправляйте их на почту handwritten.birds@gmail.com.