Interested Article - Tesseract

Tesseract (с англ. — « тессеракт », от др.-греч. τέσσαρες ἀκτῖνες — «четыре луча») — свободная компьютерная программа для распознавания текстов , разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет «пролежавшая на полке». В августе 2006 г. Google купил её и открыл исходные тексты под лицензией Apache 2.0 для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0 ) осуществляется с помощью дополнительных модулей.

История

Ядро программы Tesseract было разработано в Бристольской лаборатории Hewlett Packard и в Hewlett Packard Co, Greeley штат Колорадо в 1985—1994 годах. В 1996 были проведены значительные изменения и подготовлен порт для Windows. Затем, с 1998 года — частичная миграция с C на C++. Значительная часть кода изначально написана на C, но проводились доработки для совместимости с C++ компиляторами.

В настоящее время Tesseract 3.0 собирается под Linux с GCC 2.95 и старше и под Windows с Visual C++ 2008 Express и старше (поддержка Visual C++ 6 была удалена в версии 3.0 ).

На данный момент последней версией является Tesseract 5.0, основанная на LSTM .

Графические интерфейсы для Tesseract

Для Linux

Для Windows

PDF24

Сайты на базе движка Tesseract

Зависимости

Интересные факты

Программа Tesseract используется менеджером загрузок Tucan Manager для распознавания текстов в тестах CAPTCHA .

Примечания

↑ Vincent, Luc (August 2006). Дата обращения: 26 июня 2008. 18 марта 2012 года.
↑ . Дата обращения: 5 октября 2010. 9 октября 2010 года.
. 18 марта 2012 года.
(англ.) . Дата обращения: 12 января 2019. 5 мая 2020 года.

Ссылки

[Google30Aug06-2] Vincent, Luc (August 2006). Дата обращения: 26 июня 2008. 18 марта 2012 года.

[Google1Oct10-3] . Дата обращения: 5 октября 2010. 9 октября 2010 года.

[TesseractDownloadPage-4] . 18 марта 2012 года.

[5] (англ.) . Дата обращения: 12 января 2019. 5 мая 2020 года.

Interested Article - Tesseract

Содержание