The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Релиз системы распознавания текста Tesseract 5.3.4"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Релиз системы распознавания текста Tesseract 5.3.4"  +/
Сообщение от opennews (??), 18-Янв-24, 20:25 
Опубликован релиз системы оптического распознавания текста Tesseract 5.3.4, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский  и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR),  ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты  проекта распространяются под лицензией Apache 2.0...

Подробнее: https://www.opennet.ru/opennews/art.shtml?num=60457

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по ответам | RSS]

1. Сообщение от Аноним (1), 18-Янв-24, 20:25   +10 +/
Линуксу не хватает распознавания текстов уровня FineReader
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #2, #14, #27

2. Сообщение от Аноним (2), 18-Янв-24, 20:31   –10 +/
Сейчас это любая нервно-сеть в инете сделает лучше, чем finereader
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #3, #8

3. Сообщение от Аноним (3), 18-Янв-24, 20:42   +7 +/
> в инете

а тут ничего никому загружать не нужно, всё работает _оффлайн_.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2 Ответы: #5

4. Сообщение от robot228email (?), 18-Янв-24, 20:42   +1 +/
Есть где сравнение с FineReader? Я слышал китайцы делали но не смог найти инфы.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #10

5. Сообщение от Аноним (5), 18-Янв-24, 20:45   +/
Без обучения все равно результат плохой.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #3

7. Сообщение от Аноним (7), 18-Янв-24, 20:46   +1 +/
Ещё бы готовые модели расшарили, а то гугл зажал. Те модели 10 летней давности не очень хорошие.
Ответить | Правка | Наверх | Cообщить модератору

8. Сообщение от Аноним (1), 18-Янв-24, 21:01   +3 +/
Сразу видно, что ты не занимаешься распознаванием документов и не в курсе всех задач, которые присущи данной теме.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2 Ответы: #9

9. Сообщение от Аноним (2), 18-Янв-24, 21:09   +/
Ты что-ли занимаешься? Или софт вместо тебя этим занимается?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #8 Ответы: #31

10. Сообщение от Quad Romb (ok), 18-Янв-24, 21:14   +/
Fraktur очень медленно распознаёт по сравнению с FR15.
На порядки медленнее. То есть от 200 до 400 раз медленнее.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4

11. Сообщение от paulus (ok), 18-Янв-24, 21:26   +1 +/
Когда последний раз испытывал, это чудо не могло ничего от слова совсем :( Что-нибудь в лучшую сторону изменилось?
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #12, #13

12. Сообщение от Quad Romb (ok), 18-Янв-24, 21:29   +2 +/
Могёт.
Если нет особо сложной вёрстки - даже вполне пристойно могёт.
Но очень-очень не спеша.
Для некоммерческого продукта, всё-таки, даёт весьма пристойный результат.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #11

13. Сообщение от Аноним (13), 18-Янв-24, 22:38   +2 +/
В кедовском Skanpage есть интеграция с тессерактом, на простых отсканированных документах и справках с год назад оно хорошо текст распознавало.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #11

14. Сообщение от Матвей (??), 18-Янв-24, 22:42   +6 +/
Еще с конца 90х юзал этот файнридер и альтернатив не видел. Но последние 2 года только тессеракт. Мне пофиг, что оно консольное, зато распознает 100% русских текстов самых разных шрифтов и качеств, которые я ей скармливаю. С помощью тессеракта оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #19

15. Сообщение от Аноним (15), 18-Янв-24, 22:49   +1 +/
Пока тессеракт не может распознавать в PDF и ODT с детекцией гарнитур, размеров, таблиц, подчёркиваний, жирности, курсивности, структуры абзаца и прочими фичами Файн Ридер 20летней давности - он так и будет не нужен.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #18

16. Сообщение от Аноним (15), 18-Янв-24, 22:52   –1 +/
> Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.

Самая важная и основная функция инструмента для распознавания картинок! Лучше бы из stdin картинки брали, а курл или что там нужно мы сами уже подключим.

Ответить | Правка | Наверх | Cообщить модератору

18. Сообщение от Тот_Самый_Анонимус_ (?), 19-Янв-24, 10:01   +3 +/
После файнридера приводить текст к единому стилю — то ещё удовольствие.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #15

19. Сообщение от onanim (?), 19-Янв-24, 10:07   +8 +/
>     оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.

где скачать?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14

20. Сообщение от Ильч (?), 19-Янв-24, 10:44   +/
Это все прекрасно. А какие линуксовые программульки могут распозновать рукописный текст?
Ответить | Правка | Наверх | Cообщить модератору

23. Сообщение от Анонимemail (23), 19-Янв-24, 13:44   +/
Не понимаю чего с "этим" возятся, это же позор. Уже давным давно появились более адекватные распознавалки со свободной лицензией и открытым кодом. Например PaddleOCR. А это надо закопать!
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #24

24. Сообщение от Аноним (24), 19-Янв-24, 15:06   +/
Потому что это компактная, не привязанная ни к чему сишная либа, а не очередной кусок питонокода, требующий питоновую инфраструктуру и кучу пакетов для запуска.

Ещё два момента:
— В Tesseract тоже завезли нейронки
— PaddleOCR, как и сам фреймворк Paddle — китайский проект, основная масса документации, разработка и багтрекер тоже на китайском. Если языковой барьер не мешает, то пожалуйста.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #23 Ответы: #25, #30

25. Сообщение от Бывалый смузихлёб (?), 19-Янв-24, 15:54   –2 +/
> Если языковой барьер не мешает, то пожалуйста.

Онлайн-переводчики уже запретили ?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #24 Ответы: #26

26. Сообщение от Аноним (24), 19-Янв-24, 16:10   +/
Не запретили. Как и выучить китайский. Речь не о принципиальной невозможности, а о дополнительном геморрое.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #25

27. Сообщение от Jh (?), 19-Янв-24, 20:16   +/
tesseract хорошо распознает. Я его тестировал на сканах ксерокопий в 200взш которые нам присылали из больниц. В чем проблема, что он распознает таблицы.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #28, #29

28. Сообщение от Jh (?), 19-Янв-24, 20:18   +/
не распознает. А с фанридером лично у меня всегда были проблемы если результат надо было редактировать.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #27

29. Сообщение от Jh (?), 19-Янв-24, 20:30   +/
И еще есть гуй для этой утилиты - gimagereader. Довольно неполохой
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #27

30. Сообщение от cat666 (ok), 19-Янв-24, 21:22   +1 +/
Ты даже не в теме. Никакие куски питона там не нужны. Я собирал на C++ и библиотеку и программу распознавания. Всё остальное просто нервно курит в сторонке по качеству распознавания. Много документации на английском, для этого надо просто зайти на GitHub. Китайцы молодцы.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #24 Ответы: #33

31. Сообщение от Прадед (?), 20-Янв-24, 09:28   +/
Недавно занимался распознаванием документа. Потом уснул..
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #9 Ответы: #32

32. Сообщение от Аноним (-), 20-Янв-24, 12:58   +/
> Недавно занимался распознаванием документа. Потом уснул..

Хреновая и неэффективная нейросеть. Заменить на робота.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #31

33. Сообщение от Аноним (33), 20-Янв-24, 15:25   +1 +/
Китайцы безусловно молодцы, факт.

> Всё остальное просто нервно курит в сторонке по качеству распознавания.

Само-собой, нейронки нещадно нагибают классический подход.

> Я собирал на C++ и библиотеку и программу распознавания.

cpp_infer? Оно работало, но это скорее побочное демо. Основная софтина — это именно питона кусок.

> Много документации на английском

Какая–то есть. Актуальность и полноту по сравнению с китайской берёшься гарантировать? (спойлер: китайская полнее и актуальнее) Поиск по багтрекеру тоже возьмёшся организовать?

Штука не в том. PaddleOCR развивается, тестируется и поддерживается именно как датасатанистский проект с питоном во все поля. Не как сишная либа. Отдельные инициативы по запуску моделей на нативных рантаймах — это именно что демки и proof–of–concept. Без поддержки и гарантий актуализации. Самое ценное там — это компактные модели, но обвязку под них придётся допиливать самостоятельно.

В том и разница: Tesseract компактен, самодостаточен и почти без сторонних зависимостей (всё чтение форматов и обработка картинок вынесены в leptonica). А PaddleOCR — это нейронка, приклеенная к нагромождению third–party либ (один OpenCV чего стоит), и всё насквозь перемотанное синей изолентой. С огромным количеством «если», «может быть» и «— Е..нёт? — Не должно».

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #30


Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру