Empire Distribution
- 1 year ago
- 0
- 0
Distributed Proofreaders (с англ. — «Распределённые корректоры») — веб-проект по оцифровке книг для проекта «Гутенберг» . Идея проекта состоит в совместной работе массы волонтёров над созданием электронных книг, начиная с этапа сканирования и заканчивая выкладкой готового текста на сайт проекта «Гутенберг».
Проект был создан в 2000 году , с тех пор усилиями его участников каталог проекта «Гутенберг» пополнился более чем 15 тысячами книг . В месяц это число возрастает в среднем на 150—200 книг. Каждый день первый этап вычитки проходит более 2 тысяч страниц.
По историческим причинам сайт не поддерживает юникод , поэтому число языков, книги на которых оцифровываются в рамках проекта, сильно ограничено. По состоянию на апрель 2009 г. список языков таков:
Книги на некоторых других языках, включая славянские, обрабатываются в рамках проекта , в котором юникод поддерживается.
На первом этапе книги, не защищённые авторским правом , сканируются и проходят распознавание . Довольно значительная часть книг в проект попадает, минуя этап сканирования — из Internet Archive , Google Books и других подобных источников.
В результате распознавания получается текст, как правило, содержащий некоторое количество ошибок распознавания ( англ. scannos ). В связи с этим текст проходит трёхступенчатую процедуру вычитки ( proofreading ), в ходе которой корректор видит на экране одновременно изображение, полученное со сканера , и текущий вариант текста.
Затем книга подвергается двухступенчатому процессу форматирования, при этом, как и на предыдущем этапе, наибольший приоритет отдаётся тому, чтобы сохранить текст как можно ближе к авторскому варианту.
Отформатированный текст проходит так называемую постобработку ( post-processing ), а затем — окончательную верификацию. После этого книга считается готовой к выкладке на сайт проекта «Гутенберг».