forum.opennet.ru - "Релиз системы распознавания текста Tesseract 5.3.4" (29)

"Релиз системы распознавания текста Tesseract 5.3.4"

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"Релиз системы распознавания текста Tesseract 5.3.4"	+/–
Сообщение от opennews (??), 18-Янв-24, 20:25
Опубликован релиз системы оптического распознавания текста Tesseract 5.3.4, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0... Подробнее: https://www.opennet.ru/opennews/art.shtml?num=60457
Ответить \| Правка \| Cообщить модератору

Оглавление

Линуксу не хватает распознавания текстов уровня FineReader, Аноним (1), 20:25 , 18-Янв-24, (1) +10

Сейчас это любая нервно-сеть в инете сделает лучше, чем finereader, Аноним (2), 20:31 , 18-Янв-24, (2) –10

а тут ничего никому загружать не нужно, всё работает _оффлайн_ , Аноним (3), 20:42 , 18-Янв-24, (3) +7

Без обучения все равно результат плохой , Аноним (5), 20:45 , 18-Янв-24, (5)

Сразу видно, что ты не занимаешься распознаванием документов и не в курсе всех з, Аноним (1), 21:01 , 18-Янв-24, (8) +3

Ты что-ли занимаешься Или софт вместо тебя этим занимается , Аноним (2), 21:09 , 18-Янв-24, (9)

Недавно занимался распознаванием документа Потом уснул , Прадед (?), 09:28 , 20-Янв-24, (31)

Скрыто модератором, Аноним (-), 12:58 , 20-Янв-24, (32)

Еще с конца 90х юзал этот файнридер и альтернатив не видел Но последние 2 года , Матвей (??), 22:42 , 18-Янв-24, (14) +6

где скачать , onanim (?), 10:07 , 19-Янв-24, (19) +8

tesseract хорошо распознает Я его тестировал на сканах ксерокопий в 200взш кото, Jh (?), 20:16 , 19-Янв-24, (27)

не распознает А с фанридером лично у меня всегда были проблемы если результат н, Jh (?), 20:18 , 19-Янв-24, (28)
И еще есть гуй для этой утилиты - gimagereader Довольно неполохой, Jh (?), 20:30 , 19-Янв-24, (29)

Есть где сравнение с FineReader Я слышал китайцы делали но не смог найти инфы , robot228 (?), 20:42 , 18-Янв-24, (4) +1

Fraktur очень медленно распознаёт по сравнению с FR15 На порядки медленнее То е, Quad Romb (ok), 21:14 , 18-Янв-24, (10)

Ещё бы готовые модели расшарили, а то гугл зажал Те модели 10 летней давности н, Аноним (7), 20:46 , 18-Янв-24, (7) +1
Когда последний раз испытывал, это чудо не могло ничего от слова совсем Что-н, paulus (ok), 21:26 , 18-Янв-24, (11) +1

Могёт Если нет особо сложной вёрстки - даже вполне пристойно могёт Но очень-очен, Quad Romb (ok), 21:29 , 18-Янв-24, (12) +2
В кедовском Skanpage есть интеграция с тессерактом, на простых отсканированных д, Аноним (13), 22:38 , 18-Янв-24, (13) +2

Пока тессеракт не может распознавать в PDF и ODT с детекцией гарнитур, размеров,, Аноним (15), 22:49 , 18-Янв-24, (15) +1

После файнридера приводить текст к единому стилю 8212 то ещё удовольствие , Тот_Самый_Анонимус_ (?), 10:01 , 19-Янв-24, (18) +3

Самая важная и основная функция инструмента для распознавания картинок Лучше бы, Аноним (15), 22:52 , 18-Янв-24, (16) –1
Это все прекрасно А какие линуксовые программульки могут распозновать рукописны, Ильч (?), 10:44 , 19-Янв-24, (20)
Не понимаю чего с этим возятся, это же позор Уже давным давно появились более, Аноним (23), 13:44 , 19-Янв-24, (23)

Потому что это компактная, не привязанная ни к чему сишная либа, а не очередной , Аноним (24), 15:06 , 19-Янв-24, (24)

Онлайн-переводчики уже запретили , Бывалый смузихлёб (?), 15:54 , 19-Янв-24, (25) –2

Не запретили Как и выучить китайский Речь не о принципиальной невозможности, а, Аноним (24), 16:10 , 19-Янв-24, (26)

Ты даже не в теме Никакие куски питона там не нужны Я собирал на C и библиот, cat666 (ok), 21:22 , 19-Янв-24, (30) +1

Китайцы безусловно молодцы, факт Само-собой, нейронки нещадно нагибают классиче, Аноним (33), 15:25 , 20-Янв-24, (33) +1

Сообщения [Сортировка по ответам | RSS]

1. Сообщение от Аноним (1), 18-Янв-24, 20:25 +10 +/–

Линуксу не хватает распознавания текстов уровня FineReader

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #2, #14, #27

2. Сообщение от Аноним (2), 18-Янв-24, 20:31 –10 +/–

Сейчас это любая нервно-сеть в инете сделает лучше, чем finereader

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #3, #8

3. Сообщение от Аноним (3), 18-Янв-24, 20:42 +7 +/–

> в инете
а тут ничего никому загружать не нужно, всё работает _оффлайн_.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2 Ответы: #5

4. Сообщение от robot228 (?), 18-Янв-24, 20:42 +1 +/–

Есть где сравнение с FineReader? Я слышал китайцы делали но не смог найти инфы.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #10

5. Сообщение от Аноним (5), 18-Янв-24, 20:45 +/–

Без обучения все равно результат плохой.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #3

7. Сообщение от Аноним (7), 18-Янв-24, 20:46 +1 +/–

Ещё бы готовые модели расшарили, а то гугл зажал. Те модели 10 летней давности не очень хорошие.

Ответить | Правка | Наверх | Cообщить модератору

8. Сообщение от Аноним (1), 18-Янв-24, 21:01 +3 +/–

Сразу видно, что ты не занимаешься распознаванием документов и не в курсе всех задач, которые присущи данной теме.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2 Ответы: #9

9. Сообщение от Аноним (2), 18-Янв-24, 21:09 +/–

Ты что-ли занимаешься? Или софт вместо тебя этим занимается?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #8 Ответы: #31

10. Сообщение от Quad Romb (ok), 18-Янв-24, 21:14 +/–

Fraktur очень медленно распознаёт по сравнению с FR15.
На порядки медленнее. То есть от 200 до 400 раз медленнее.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4

11. Сообщение от paulus (ok), 18-Янв-24, 21:26 +1 +/–

Когда последний раз испытывал, это чудо не могло ничего от слова совсем :( Что-нибудь в лучшую сторону изменилось?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #12, #13

12. Сообщение от Quad Romb (ok), 18-Янв-24, 21:29 +2 +/–

Могёт.
Если нет особо сложной вёрстки - даже вполне пристойно могёт.
Но очень-очень не спеша.
Для некоммерческого продукта, всё-таки, даёт весьма пристойный результат.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #11

13. Сообщение от Аноним (13), 18-Янв-24, 22:38 +2 +/–

В кедовском Skanpage есть интеграция с тессерактом, на простых отсканированных документах и справках с год назад оно хорошо текст распознавало.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #11

14. Сообщение от Матвей (??), 18-Янв-24, 22:42 +6 +/–

Еще с конца 90х юзал этот файнридер и альтернатив не видел. Но последние 2 года только тессеракт. Мне пофиг, что оно консольное, зато распознает 100% русских текстов самых разных шрифтов и качеств, которые я ей скармливаю. С помощью тессеракта оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #19

15. Сообщение от Аноним (15), 18-Янв-24, 22:49 +1 +/–

Пока тессеракт не может распознавать в PDF и ODT с детекцией гарнитур, размеров, таблиц, подчёркиваний, жирности, курсивности, структуры абзаца и прочими фичами Файн Ридер 20летней давности - он так и будет не нужен.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #18

16. Сообщение от Аноним (15), 18-Янв-24, 22:52 –1 +/–

> Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.
Самая важная и основная функция инструмента для распознавания картинок! Лучше бы из stdin картинки брали, а курл или что там нужно мы сами уже подключим.

Ответить | Правка | Наверх | Cообщить модератору

18. Сообщение от Тот_Самый_Анонимус_ (?), 19-Янв-24, 10:01 +3 +/–

После файнридера приводить текст к единому стилю — то ещё удовольствие.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #15

19. Сообщение от onanim (?), 19-Янв-24, 10:07 +8 +/–

> оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.
где скачать?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14

20. Сообщение от Ильч (?), 19-Янв-24, 10:44 +/–

Это все прекрасно. А какие линуксовые программульки могут распозновать рукописный текст?

Ответить | Правка | Наверх | Cообщить модератору

23. Сообщение от Аноним (23), 19-Янв-24, 13:44 +/–

Не понимаю чего с "этим" возятся, это же позор. Уже давным давно появились более адекватные распознавалки со свободной лицензией и открытым кодом. Например PaddleOCR. А это надо закопать!

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #24

24. Сообщение от Аноним (24), 19-Янв-24, 15:06 +/–

Потому что это компактная, не привязанная ни к чему сишная либа, а не очередной кусок питонокода, требующий питоновую инфраструктуру и кучу пакетов для запуска.
Ещё два момента:
— В Tesseract тоже завезли нейронки
— PaddleOCR, как и сам фреймворк Paddle — китайский проект, основная масса документации, разработка и багтрекер тоже на китайском. Если языковой барьер не мешает, то пожалуйста.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #23 Ответы: #25, #30

25. Сообщение от Бывалый смузихлёб (?), 19-Янв-24, 15:54 –2 +/–

> Если языковой барьер не мешает, то пожалуйста.
Онлайн-переводчики уже запретили ?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #24 Ответы: #26

26. Сообщение от Аноним (24), 19-Янв-24, 16:10 +/–

Не запретили. Как и выучить китайский. Речь не о принципиальной невозможности, а о дополнительном геморрое.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #25

27. Сообщение от Jh (?), 19-Янв-24, 20:16 +/–

tesseract хорошо распознает. Я его тестировал на сканах ксерокопий в 200взш которые нам присылали из больниц. В чем проблема, что он распознает таблицы.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #28, #29

28. Сообщение от Jh (?), 19-Янв-24, 20:18 +/–

не распознает. А с фанридером лично у меня всегда были проблемы если результат надо было редактировать.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #27

29. Сообщение от Jh (?), 19-Янв-24, 20:30 +/–

И еще есть гуй для этой утилиты - gimagereader. Довольно неполохой

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #27

30. Сообщение от cat666 (ok), 19-Янв-24, 21:22 +1 +/–

Ты даже не в теме. Никакие куски питона там не нужны. Я собирал на C++ и библиотеку и программу распознавания. Всё остальное просто нервно курит в сторонке по качеству распознавания. Много документации на английском, для этого надо просто зайти на GitHub. Китайцы молодцы.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #24 Ответы: #33

31. Сообщение от Прадед (?), 20-Янв-24, 09:28 +/–

Недавно занимался распознаванием документа. Потом уснул..

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #9 Ответы: #32

32. Сообщение от Аноним (-), 20-Янв-24, 12:58 +/–

> Недавно занимался распознаванием документа. Потом уснул..
Хреновая и неэффективная нейросеть. Заменить на робота.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #31

33. Сообщение от Аноним (33), 20-Янв-24, 15:25 +1 +/–

Китайцы безусловно молодцы, факт.
> Всё остальное просто нервно курит в сторонке по качеству распознавания.
Само-собой, нейронки нещадно нагибают классический подход.
> Я собирал на C++ и библиотеку и программу распознавания.
cpp_infer? Оно работало, но это скорее побочное демо. Основная софтина — это именно питона кусок.
> Много документации на английском
Какая–то есть. Актуальность и полноту по сравнению с китайской берёшься гарантировать? (спойлер: китайская полнее и актуальнее) Поиск по багтрекеру тоже возьмёшся организовать?
Штука не в том. PaddleOCR развивается, тестируется и поддерживается именно как датасатанистский проект с питоном во все поля. Не как сишная либа. Отдельные инициативы по запуску моделей на нативных рантаймах — это именно что демки и proof–of–concept. Без поддержки и гарантий актуализации. Самое ценное там — это компактные модели, но обвязку под них придётся допиливать самостоятельно.
В том и разница: Tesseract компактен, самодостаточен и почти без сторонних зависимостей (всё чтение форматов и обработка картинок вынесены в leptonica). А PaddleOCR — это нейронка, приклеенная к нагромождению third–party либ (один OpenCV чего стоит), и всё насквозь перемотанное синей изолентой. С огромным количеством «если», «может быть» и «— Е..нёт? — Не должно».

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #30

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

1. Сообщение от Аноним (1), 18-Янв-24, 20:25	+10 +/–
Линуксу не хватает распознавания текстов уровня FineReader
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #2, #14, #27

2. Сообщение от Аноним (2), 18-Янв-24, 20:31	–10 +/–
Сейчас это любая нервно-сеть в инете сделает лучше, чем finereader
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #1 Ответы: #3, #8

3. Сообщение от Аноним (3), 18-Янв-24, 20:42	+7 +/–
> в инете а тут ничего никому загружать не нужно, всё работает _оффлайн_.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #2 Ответы: #5

4. Сообщение от robot228 (?), 18-Янв-24, 20:42	+1 +/–
Есть где сравнение с FineReader? Я слышал китайцы делали но не смог найти инфы.
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #10

5. Сообщение от Аноним (5), 18-Янв-24, 20:45	+/–
Без обучения все равно результат плохой.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #3

7. Сообщение от Аноним (7), 18-Янв-24, 20:46	+1 +/–
Ещё бы готовые модели расшарили, а то гугл зажал. Те модели 10 летней давности не очень хорошие.
Ответить \| Правка \| Наверх \| Cообщить модератору

8. Сообщение от Аноним (1), 18-Янв-24, 21:01	+3 +/–
Сразу видно, что ты не занимаешься распознаванием документов и не в курсе всех задач, которые присущи данной теме.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #2 Ответы: #9

9. Сообщение от Аноним (2), 18-Янв-24, 21:09	+/–
Ты что-ли занимаешься? Или софт вместо тебя этим занимается?
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #8 Ответы: #31

10. Сообщение от Quad Romb (ok), 18-Янв-24, 21:14	+/–
Fraktur очень медленно распознаёт по сравнению с FR15. На порядки медленнее. То есть от 200 до 400 раз медленнее.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #4

11. Сообщение от paulus (ok), 18-Янв-24, 21:26	+1 +/–
Когда последний раз испытывал, это чудо не могло ничего от слова совсем :( Что-нибудь в лучшую сторону изменилось?
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #12, #13

12. Сообщение от Quad Romb (ok), 18-Янв-24, 21:29	+2 +/–
Могёт. Если нет особо сложной вёрстки - даже вполне пристойно могёт. Но очень-очень не спеша. Для некоммерческого продукта, всё-таки, даёт весьма пристойный результат.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #11

13. Сообщение от Аноним (13), 18-Янв-24, 22:38	+2 +/–
В кедовском Skanpage есть интеграция с тессерактом, на простых отсканированных документах и справках с год назад оно хорошо текст распознавало.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #11

14. Сообщение от Матвей (??), 18-Янв-24, 22:42	+6 +/–
Еще с конца 90х юзал этот файнридер и альтернатив не видел. Но последние 2 года только тессеракт. Мне пофиг, что оно консольное, зато распознает 100% русских текстов самых разных шрифтов и качеств, которые я ей скармливаю. С помощью тессеракта оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #1 Ответы: #19

15. Сообщение от Аноним (15), 18-Янв-24, 22:49	+1 +/–
Пока тессеракт не может распознавать в PDF и ODT с детекцией гарнитур, размеров, таблиц, подчёркиваний, жирности, курсивности, структуры абзаца и прочими фичами Файн Ридер 20летней давности - он так и будет не нужен.
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #18

16. Сообщение от Аноним (15), 18-Янв-24, 22:52	–1 +/–
> Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie. Самая важная и основная функция инструмента для распознавания картинок! Лучше бы из stdin картинки брали, а курл или что там нужно мы сами уже подключим.
Ответить \| Правка \| Наверх \| Cообщить модератору

18. Сообщение от Тот_Самый_Анонимус_ (?), 19-Янв-24, 10:01	+3 +/–
После файнридера приводить текст к единому стилю — то ещё удовольствие.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #15

19. Сообщение от onanim (?), 19-Янв-24, 10:07	+8 +/–
> оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было. где скачать?
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #14

20. Сообщение от Ильч (?), 19-Янв-24, 10:44	+/–
Это все прекрасно. А какие линуксовые программульки могут распозновать рукописный текст?
Ответить \| Правка \| Наверх \| Cообщить модератору

23. Сообщение от Аноним (23), 19-Янв-24, 13:44	+/–
Не понимаю чего с "этим" возятся, это же позор. Уже давным давно появились более адекватные распознавалки со свободной лицензией и открытым кодом. Например PaddleOCR. А это надо закопать!
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #24

24. Сообщение от Аноним (24), 19-Янв-24, 15:06	+/–
Потому что это компактная, не привязанная ни к чему сишная либа, а не очередной кусок питонокода, требующий питоновую инфраструктуру и кучу пакетов для запуска. Ещё два момента: — В Tesseract тоже завезли нейронки — PaddleOCR, как и сам фреймворк Paddle — китайский проект, основная масса документации, разработка и багтрекер тоже на китайском. Если языковой барьер не мешает, то пожалуйста.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #23 Ответы: #25, #30

25. Сообщение от Бывалый смузихлёб (?), 19-Янв-24, 15:54	–2 +/–
> Если языковой барьер не мешает, то пожалуйста. Онлайн-переводчики уже запретили ?
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #24 Ответы: #26

26. Сообщение от Аноним (24), 19-Янв-24, 16:10	+/–
Не запретили. Как и выучить китайский. Речь не о принципиальной невозможности, а о дополнительном геморрое.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #25

27. Сообщение от Jh (?), 19-Янв-24, 20:16	+/–
tesseract хорошо распознает. Я его тестировал на сканах ксерокопий в 200взш которые нам присылали из больниц. В чем проблема, что он распознает таблицы.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #1 Ответы: #28, #29

28. Сообщение от Jh (?), 19-Янв-24, 20:18	+/–
не распознает. А с фанридером лично у меня всегда были проблемы если результат надо было редактировать.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #27

29. Сообщение от Jh (?), 19-Янв-24, 20:30	+/–
И еще есть гуй для этой утилиты - gimagereader. Довольно неполохой
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #27

30. Сообщение от cat666 (ok), 19-Янв-24, 21:22	+1 +/–
Ты даже не в теме. Никакие куски питона там не нужны. Я собирал на C++ и библиотеку и программу распознавания. Всё остальное просто нервно курит в сторонке по качеству распознавания. Много документации на английском, для этого надо просто зайти на GitHub. Китайцы молодцы.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #24 Ответы: #33

31. Сообщение от Прадед (?), 20-Янв-24, 09:28	+/–
Недавно занимался распознаванием документа. Потом уснул..
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #9 Ответы: #32

32. Сообщение от Аноним (-), 20-Янв-24, 12:58	+/–
> Недавно занимался распознаванием документа. Потом уснул.. Хреновая и неэффективная нейросеть. Заменить на робота.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #31

33. Сообщение от Аноним (33), 20-Янв-24, 15:25	+1 +/–
Китайцы безусловно молодцы, факт. > Всё остальное просто нервно курит в сторонке по качеству распознавания. Само-собой, нейронки нещадно нагибают классический подход. > Я собирал на C++ и библиотеку и программу распознавания. cpp_infer? Оно работало, но это скорее побочное демо. Основная софтина — это именно питона кусок. > Много документации на английском Какая–то есть. Актуальность и полноту по сравнению с китайской берёшься гарантировать? (спойлер: китайская полнее и актуальнее) Поиск по багтрекеру тоже возьмёшся организовать? Штука не в том. PaddleOCR развивается, тестируется и поддерживается именно как датасатанистский проект с питоном во все поля. Не как сишная либа. Отдельные инициативы по запуску моделей на нативных рантаймах — это именно что демки и proof–of–concept. Без поддержки и гарантий актуализации. Самое ценное там — это компактные модели, но обвязку под них придётся допиливать самостоятельно. В том и разница: Tesseract компактен, самодостаточен и почти без сторонних зависимостей (всё чтение форматов и обработка картинок вынесены в leptonica). А PaddleOCR — это нейронка, приклеенная к нагромождению third–party либ (один OpenCV чего стоит), и всё насквозь перемотанное синей изолентой. С огромным количеством «если», «может быть» и «— Е..нёт? — Не должно».
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #30