Состоялся выпуск программы для оптического распознавания текста dpScreenOCR 1.5.0, использующей Tesseract. Готовые сборки сформированы для Linux и Windows (также доступны репозитории пакетов для Debian и Ubuntu). Код программы написан на C++ и распространяется под лицензией zlib...Подробнее: https://www.opennet.dev/opennews/art.shtml?num=63339
Как оно в сравнении с православной PaddleOCR?
Православная PaddleOCR всё! В последних моделях нет поддержки русского языка, а качество распознавания оного упало в разы. Версия 3.0 сплошное разочарование.
Файнридер ничем пока не заменить
> Файнридер ничем пока не заменитьЕсть уже тьма всяких распознавалок на нейронках (как в виде свободных для локального использования, так и в виде коммерческих API), которые по качеству распознавания лучше. Но человеческого GUI к ним нет, так что в каком-то плане вы правы - лучше Файнридер купить, чем сношаться с консолькой.
Как нет гуя. Вот же целый список https://tesseract-ocr.github.io/tessdoc/User-Projects-–...
Помнится тот единственный раз когда мне это было нужно один из них точно помог
И ни одна из них с файнридером и рядом не стояла. Дело даже не в гуях, а вот — сможет кто-нибудь из них так: вставил документ в сканер, раз — и готовый .doc со всем форматированием и разметкой?
Для этого гуй как раз и не нужен, это как раз скриптом делается.
> Для этого гуй как раз и не нужен, это как раз скриптом делается.Ну вот поэтому FineReader практически и не имеет альтернатив. Он с человеческим интерфейсом для людей, а не любителей посношаться с Башем и консолью.
После файнридера проще с нуля сделать новый документ с нужным форматированием и скопировать туда текст из распознанного, чем пытаться сделать что-то нормальное из того что он выдал. Ни разу не видел просто файнридера нормальное форматирование.
Не знаю чем Вам не нравится файнридер меня и моих знакомых он устраивает всем.
Последняя его версия рукописный текс распознает на ура.
> Не знаю чем Вам не нравится файнридер меня и моих знакомых он
> устраивает всем.
> Последняя его версия рукописный текс распознает на ура.Для пенсионерки которая нихрена не понимает может и сойдёт. Но расскажи хоть один реальный случай когда это прямо вот необходимо. Зачем оно надо?
Просто порой удивительно, насколько неплохой продукт умудрились сделать в те времена, когда подобное виделось технически почти нереализуемымВ своё время получил его лицензионный, диском в подарок к покупке какого-то сканера, так он не просто текст распознавал, а, что гораздо важнее, даже таблицы с форматированием умудрялся с треском но обрабатывать.
Требовались, разумеется, правки после этого, но ни в какое сравнение с запиливанием всего того текста с нуля с бумажки с созданием всех таблиц итд итп
В смысле технически нереализуемым? На 80% для распознавания теста достаточно алгоритмов, которые даже школьник осилит (выделение отдельных слов и букв, сравнение с усреднённым шаблоном, сравнение со словарём и т.п.). 15% результата - компенсация всяких сложных геометрических искажений и прочие хитрости, для реализации которых просто нужна команда программистов, умеющих в математику. Ну 5% результата - это реально учёт контекста для каждого символа и слова, что стало возможно только с появлением языковых моделей. То есть на 95% задача в те времена была вполне обычной.
Ссылочку на модель для олламы которую можно гонять локально бесплатно и без смс с хорошим распознаванием jpg/png/pdf/tiff/djvu на русском и английском, желательно не обделывающуюся на спецсимволах пожалуйста.На видеокарте с 8 гб памяти желательно.
Да не нужны нейросетки для распознавания текста. Это как из пушки по воробьям.
В Tessract-то тоже нейронка, только узкоспециализированаая и потому нетребовательная к железу.
Ой, навеяло советских домостроителей, которые, наверно так же думали, да не нужны розетки в квартире, ну 1 на комнату норм....
Да нет, это вы думаете, что в каждую комнату по сорок розеток надо, и обязательно умных.
Распознавание текста ещё на 486 работало вполне неплохо.
ты будешь смеяцо, но оне вправду по сорок ризеток на комнату делают при ремонте
диагноз
Любая простейшая нейросеть его заменяет легко.
Ссылочку на модель для олламы которую можно гонять локально бесплатно и без смс с хорошим распознаванием jpg/png/pdf/tiff/djvu на русском и английском, желательно не обделывающуюся на спецсимволах пожалуйста.
На видеокарте с 8 гб памяти желательно.
ФР как бы всё. С концами. Они прекращают развитие.
> ФР как бы всё. С концами. Они прекращают развитиеОткуда такая информация? С чего им прекращать, будучи одним из лидеров рынка?
Нет никакого рынка сейчас 2025 год если что. Везде электронный документооборот.
Да-да, и производители МФУ банкротятся один за другим.
К слову по своей работе, расход картриджей в последние годы сократился.
Сократился, конечно. Но не на порядки и не в разы даже. Этот процесс ещё лет 50 идти будет (и то это оптимистично).
> Нет никакого рынка сейчас 2025 год если что.То-то Adobe, Google, Mistral и прочие пионеры AI соревнуются в качестве OCR в своих продуктах.
> Везде электронный документооборот.
Святая наивность. В некоторых странах (типа Канады) счета и подобное до сих пор сугубо в бумажном виде. Ты сам-то давно контракт в электронном виде подписывал?
Ну и самое главное: а что, все выпущенные до 2025 года книги, журналы и т.п. уже сожгли? Вместе со сканерами?
> Ну и самое главное: а что, все выпущенные до 2025 года книги, журналы и т.п. уже сожгли? Вместе со сканерами?За все не скажу, но самое ценное давно отсканировали и распознали, а в современности, да, давать доступ к исходнику документа в электронном виде хорошая и общеупотребимая практика.
> Святая наивность. В некоторых странах (типа Канады)
А в некоторых население не грамотное и че теперь?
> А в некоторых население не грамотное и че теперь?Что "че теперь?". Это был ответ на заявление "везде электронный документооборот".
Отсканировано до сих пор менее 10% нехудожественной литературы.
А не художественная это какая? Записки сельского коновала о смерти Буренки, или рапорт прапорщика Скачко, о списании бочки дизеля от 1967 года, или инструкция к утюгу Беларусь...Техническая/Медицинская литература, нужна ли, современники знания сильно углубили во всех направлениях, как музейный экспонат мб.
Бухгалтерская отчетность и рабочие документы, тоже сомнительная ценность.
> А не художественная это какая?А ты с интернетом не дружишь?
https://en.m.wikipedia.org/wiki/Non-fiction
Если и с английским плохо, вот перевод примеров по ссылке:
справочные издания (альманахи, энциклопедии, атласы, библиографии, хроники, потребительские отчеты, словари, тезаурусы, деловые или телефонные справочники, справочники, ежегодники, книги цитат и др.)
жизнеописания (автобиографии, биографии, исповеди, дневники, журналы, мемуары, эпистолы, письма, открытки и сборники писем, эпитафии, некрологи и др. )
литературная критика (книжные отчеты и рецензии), искусствоведение, кинокритика
убеждающее письмо (апология и полемика), эссе и сборники эссе; рекламное письмо (брошюры, памфлеты, пресс-релизы, рекламные материалы и др. )
книги по истории
академические тексты (научные работы, включая научные статьи, монографии, научные журналы, трактаты, тома под редакцией, материалы конференций и т. д.)
новостные сообщения, редакционные статьи, письма в редакцию и мнения, манифесты, объявления (анонсы), документальные фильмы и фактологическое телевидение
учебники, учебные пособия, путеводители, рецепты, руководства пользователя
книги по самосовершенствованию, научно-популярные книги, блоги, презентации, оратории, изреченияИ так далее.
> Техническая/Медицинская литература, нужна ли, современники знания сильно углубили во всех направлениях, как музейный экспонат мб.
А чем же они пользовались при углублении своиз знаний? Может, темы самыми бумажными книгами и журналами?
> В некоторых странах (типа Канады) счета и подобное до сих пор сугубо в бумажном виде.Живу в Канаде, из бумажных счетов только налоги на недвигу. Остальные либо по дефолту электронные, либо явно спрашивают: почтой слать или в емейл?
> Ты сам-то давно контракт в электронном виде подписывал?
За последние пять лет других не подписывал. За последние десять только ипотека вспоминается с подписью бумажных договоров и, собственно, покупка недвиги. Всё остальное только через интернет — телефоны, интернеты, газ, свет, вода, регистрация бизнеса, даже аренда и та с электронным договором.
Может где-то в Yellowknife всё на бумаге, но в нашем селе давно уже электронный документооборот. Даже чеки в кафе предлагают на почту слать.
> Живу в Канаде, из бумажных счетов только налоги на недвигу. Остальные либо по дефолту электронные, либо явно спрашивают: почтой слать или в емейл?Ну я тебе тоже могу расскзать, как оформлял в Канаде work permit, SIN и договор аренды.
> Может где-то в Yellowknife всё на бумаге, но в нашем селе давно уже электронный документооборот.
В Ванкувере почти все на бумаге, и без почтового ящика ты далеко не уйдешь. Потому и упомянули Канаду.
> Ну я тебе тоже могу расскзать, как оформлял в Канаде work permit, SIN и договор аренды.WP и SIN by design должны быть на бумаге, с личным присутствием и интервью. Ты бы ещё пожаловался, что сертификат гражданства на емейл не присылают. Про договор аренды — вопросы к твоему лендлорду. Частники действительно не морочатся и просто покупают на почте стандартный договор аренды на бумаге. Что не помешало мне подписать скан пальцем по планшету и отослать обратно емейлом, и всё отлично работает, в том числе и в суде. Ну и так между делом, скажи в каком году это было. Я в далёком 2000-каком-то тоже ногами в банк ходил чтобы договор на обслуживание подписать. А в 2023 сделал то же самое через интернет не выходя из дома. За двадцать лет многое поменялось.
> В Ванкувере почти все на бумаге, и без почтового ящика ты далеко не уйдешь. Потому и упомянули Канаду.
Я выше про Yellowknife не просто так написал. В Канаде есть ровно два города: Торонто и Монреаль. Все остальные поселения что я посещал, за пределами даунтауна (если он вообще как-то отличается от остальной низкоэтажной застройки) — деревни и ПГТ разной степени развитости. То, что в Ванкувере по дефолту всё на бумаге не вызывает удивления. Ты бы ещё пожаловался, что в Виннипеге можно прийти в магазин и узнать на кассе, что они берут только наличные, а если хочешь по карте — едь на автозаправку и снимай наличку в ATM сам. Дело не в том, что технологии недоступны, а в том, что они зачастую просто нафиг не нужны населению за пределами двух городов. При этом, кредитки с EMV чипами массово вошли в оборот в кратчайшие сроки, но стоит заехать в вермонтскую глушь и можно увидеть в ходу knuckle buster.
> WP и SIN by design должны быть на бумаге, с личным присутствием и интервью. Ты бы ещё пожаловался, что сертификат гражданства на емейл не присылают.Так я и не жалуюсь, а привожу конкретный пример, что бумажные документы в природе все еще существуют, немотря на сказки местных комментаторов. И пока они будут существовать - OCR будет актуален.
А то вас послушать: бумаги нет, рынка OCR нет. Сорян, но в реальности все по-другому.
Бумажные документы будут существовать ровно столько, сколько будут существовать концепции документов и бумаги. Но количество бумажек в ежедневной жизни стремительно уменьшается до какого-то минимума, который в жизни многих людей — в моей в том числе — уже практически достигнут, настолько, что когда возникает необходимость манипуляций с бумажками, возникает резонный вопрос: что случилось с вашим компьютером?> А то вас послушать: бумаги нет, рынка OCR нет. Сорян, но в реальности все по-другому.
Если слушать опеннет, то и других ОС кроме DragonflyBSD в природе не существует ;)
> Ну и так между делом, скажи в каком году это было.В 2020-м.
> Я в далёком 2000-каком-то тоже ногами в банк ходил чтобы договор на обслуживание подписать.
Ну, я и в 2020-м ногами ходил, но я это сделал на следующий день после прибытия, поэтому даже не думал об онлайне.
> на следующий день после прибытияЧТД. Сегодня, небось, не пошёл бы.
> SIN by design должны быть на бумагеС какого это перепуга SIN должен быть на бумаге? Бумажка, которую ты получаешь при оформлении SIN, не является единственным доказательством его наличия. Ты можешь ей хоть подтереться - SIN у тебя от этого не пропадет.
> С какого это перепуга SIN должен быть на бумаге?С такого, что за этой бумагой ты должен явиться лично, пред светлы очи бюрократа, и убедительно доказать в процессе интервью, что ты — это ты, а не какой-то подставной васёк. Сама бумага, очевидно, не имеет никакой ценности и ей действительно можно подтереться как только ты свой SIN запомнил (и получил пластиковую карточку от федерального правительства, её в некоторых случаях нужно приносить и давать потрогать бюрократу).
В Вашингтоне в метро уже сделали оплату картами. Может и до Канады когда-нибудь прогресс дойдет.
Я не знаю где ты в Канаде на метро катался, но у турникетов ни в Торонто, ни в Монреале я не помню щелей чтобы пятак совать. Монетками кормить можно только автомат который Presto и Opus продаёт (которые, внезавно, карты для проезда в транспорте, офигеть вообще). А кредиткой оплата будет не раньше, чем Канада свою систему кредитных карт запилит. Я не разобрался как именно это работает, но по ходу ни TTK, ни STM не могут такое сделать потому что visa и mc не канадские компании (но это неточно).
> То-то Adobe, Google, Mistral и прочие пионеры AI соревнуются в качестве OCR в своих продуктах.Это называется маркетинг, бессмысленный и беспощадный.
> Святая наивность. В некоторых странах (типа Канады) счета и подобное до сих пор сугубо в бумажном виде. Ты сам-то давно контракт в электронном виде подписывал?
И в каком месте данного процесса нужно распознавать текст?
> Ну и самое главное: а что, все выпущенные до 2025 года книги, журналы и т.п. уже сожгли? Вместе со сканерами?
Довольно значительная часть из них сразу выходит в PDF и epub.
Можешь подсказать хоть один реальный случай когда нужно распознавать текст?
> Довольно значительная часть из них сразу выходит в PDF и epub.Какой к лешему PDF для журналов середины 20-го века?
> Можешь подсказать хоть один реальный случай когда нужно распознавать текст?
Реальный случай - когда нужно из бумажного документа получить электронный.
Ты троллишь, что-ли?
> Какой к лешему PDF для журналов середины 20-го века?Эти журналы уже по двести раз отсканированы.
> Реальный случай - когда нужно из бумажного документа получить электронный.
Зачем? Этот документ изначально уже электронной. Зачем его печатать а потом распознавать?
> Эти журналы уже по двести раз отсканированы.Ах, если бы. Даже популярное, даже конца 20 века далеко не всё найти можно.
> Ах, если бы. Даже популярное, даже конца 20 века далеко не всё
> найти можно.И чем тебе тут поможет файнридер? Я так и не понял его сакрального значения для многих пенсионеров.
>> Ах, если бы. Даже популярное, даже конца 20 века далеко не всё найти можно.
> И чем тебе тут поможет файнридер? Я так и не понял его сакрального значения для многих пенсионеров.А, ну понятно. Дай угадаю: ты из породы "все уже в стримингах" и "все уже в мессенджерах", а до твоего рождения люди на деревьях жили?
> А, ну понятно. Дай угадаю: ты из породы "все уже в стримингах"
> и "все уже в мессенджерах", а до твоего рождения люди на
> деревьях жили?Ну хоть кто-то тут может дать внятный ответ зачем ему файнридер?
>> Ах, если бы. Даже популярное, даже конца 20 века далеко не всё найти можно.
> И чем тебе тут поможет файнридер?Он поможет тем, что человек, у которого таки найдется та самая книга/журнал, сможет ее отсканировать и сохранить в архиве/интернете. Ты правда не догоняешь?
> Он поможет тем, что человек, у которого таки найдется та самая книга/журнал,
> сможет ее отсканировать и сохранить в архиве/интернете. Ты правда не догоняешь?Для этого вообще не нужен файнридер. Он тут ничем не поможет.
> Для этого вообще не нужен файнридер. Он тут ничем не поможет.Да что ты? А текстовый слой поверх сканов (для нормального выделения/копирования, поиска и экранных ридеров) ты где возьмешь? Ручками сделаешь? Господи...
> Да что ты? А текстовый слой поверх сканов (для нормального выделения/копирования, поиска
> и экранных ридеров) ты где возьмешь? Ручками сделаешь? Господи...Для этого не нужен файнридер. Я конечно понимаю что у пенсионеров в голове только то чем они пользовались 20 лет назад. Но файнридер это копролит который нафиг уже не нужен.
Конечно, не нужен. Ведь пионер же напишет СКРИПТЫ (а пенсионер тем временем спокойно отсканирует).
> Для этого не нужен файнридер.А что для этого нужно?
> Я конечно понимаю что у пенсионеров в голове только то чем они пользовались 20 лет назад.
А ты не знал, что он все это время развивается и до сих пор является одним из лучших решений на рынке?
> Но файнридер это копролит который нафиг уже не нужен.
А, так он у тебя теперь стал ненужен, потому что существует с 90х.
Умиляют твои извивантя на сковороде: "сканировать не нужно", "нужно, но Файнридер не поможет", "поможет, но он старый и потому ненужный". Что там у тебя дальше в цирковой программе?
Имей хоть каплю самоуважения и перестань позориться. 🤮
> А что для этого нужно?Специализированный софт для сканирования
> А ты не знал, что он все это время развивается и до
> сих пор является одним из лучших решений на рынке?Как был г**но, так и остался.
> А, так он у тебя теперь стал ненужен, потому что существует с
> 90х.Потому что с 90-х слишком много всего поменялось.
> Умиляют твои извивантя на сковороде: "сканировать не нужно", "нужно, но Файнридер не
> поможет", "поможет, но он старый и потому ненужный". Что там у
> тебя дальше в цирковой программе?Да, дедуль. Сканировать уже давно не нужно, документоооборот перешел в электронный вид. Более того скоро без ЭДО ты даже работать не сможешь.
> Имей хоть каплю самоуважения и перестань позориться. 🤮
Пока тут только ты позоришься своими привычками из 90-х. Надо же додуматься печатать документы чтобы их потом сканировать и распознавать.
>> А что для этого нужно?
> Специализированный софт для сканированияНу, то есть FineReader? Или какой именно софт вы имели в виду?
> Как был г**но, так и остался.
Странно, я всю жизнь им пользуюсь, и аналогов по качеству распознавания нет. Ну вот вообще нет.
С каким софтом вы его сравнивали?
> Потому что с 90-х слишком много всего поменялось.
Ну так FineReader тоже на месте никогда не стоял. Последняя версия вон в 2023 вышла.
> Надо же додуматься печатать документы чтобы их потом сканировать и распознавать.
Ну а что делать, если глупые люди додумались весь 20 век печатать на бумаге? И нет, еще не все из этого отсканировано, нравиться вам это или нет.
>> А что для этого нужно?
> Специализированный софт для сканирования
> Сканировать уже давно не нужноТак нужно или не нужно? 😂 Давай, чел, борись до конца! 🤣
> Так нужно или не нужно? 😂 Давай, чел, борись до конца! 🤣Дедуль, я не занимаюсь оцифровыванием старых газет. Для меня это бесполезное занятие. Если тебе для этого нужен файнридер, ну значит это единственное для чего он нужен.
> я не занимаюсь оцифровываниемНу, раз ты не занимаешься - значит никто не занимается.
Вопрос " тогда откуда тебе знать о нужности-ненужности Файнридера?" я не стану задавать, так как мелочи вроде логики и причинно-следственных связей тебя абсолютно не волнуют.
> Если тебе для этого нужен файнридер, ну значит это единственное для чего он нужен.
Да, FineReader нужен для оцифровывания. Вот это поворот, да? 🤦
> Ну, раз ты не занимаешься - значит никто не занимается.Полтора пенсионера-землекопа возможно занимаются.
> Да, FineReader нужен для оцифровывания. Вот это поворот, да? 🤦
В общем как сказал товарищ выше, рынок мертв. Для документооборота оно нафиг не надо. А делать архивы периодики 50-х годов это занятие мягко говоря не шибко распространённое.
Соскакивать с темы некрасиво. Я лишь ответил на утверждение, что всё уже давно отсканировано. Ну вот дайте мне электронный архив, ээ… ну к примеру, журнала «Юность». Да чтоб все номера, начиная с 1955. По сусекам разве что если половина наберётся, причём со старыми будет совсем печально.
И при наличии бумажных номеров файнридер в оцифровке ну очень поможет.
> Ну вот дайте мне электронный архив, ээ… ну к примеру, журнала «Юность».Ну так персонаж уже запел про "пенсионеров". Которые тоже "нинужны" со своим файнридером. 😂
Архив журнала Юность есть прямо на странице журнала, регистрируешься и смотришь.
И там половины журналов нет. О чём и речь.
(Причём уверен, сами из сети и натаскали, что пользователи сканировали)
> И там половины журналов нет. О чём и речь.
> (Причём уверен, сами из сети и натаскали, что пользователи сканировали)Честно говоря, как-то пофиг.
Ну вот это уже классический соскок.
> Ну вот это уже классический соскок.Тут началось C
> Реальный случай - когда нужно из бумажного документа получить электронный.
А закончилось журналом Юность за 59 год
Я так не увидел реального случая когда надо документ отсканировать и распознать документ, если ты не работник каких-то архивов или библиотеки который оцифровывает старые газеты.
Сейчас весь документооборот формируется информационными системами типа 1С и т.п. там изначально все документы цифровые. Объясни зачем их печатать, а потом опять сканировать и распознавать.
> Я так не увидел реального случая когда надо документ отсканировать и распознать документЧестно говоря, как-то пофиг.
> Честно говоря, как-то пофиг.То есть ты подтверждаешь что реальной необходимости в файнрилере нет.
я так понял, что свой язык распознавания не добавить и кроме скринов документы не будет подхватывать?... или не так?...
> я так понял, что свой язык распознавания не добавитьМожно; нужно положить в нужную папку:
Скриншот из винды?
Конечно. Не из на десктопе ненужного же его делать.
Хорошая и могучий великая русский языка?
Распознано сабжем.
Но плохо.
Натравить простейшую ИИ и она все ошибки исправит. Будет как у Пушкина текст.
Как у вас там в 2000х?
В 2000-х у нас большие надежды на то, что следующий год будет годом линукса на десткопе и на скорый вендокапец.
Зачем писать велосипед, если можно контрибутить в TextSnatcher?
> Зачем писать велосипед, если можно контрибутить в TextSnatcher?Глянул на этот TextSnatcher. Во-первых, его в его еще в помине не было, когда вышла первая версия сабжа в 2019 году. Во-вторых, его интерфейс состоит из одной кнопки, лол. В-третьих, оно не работает на Винде.
Это так, навскидку. Качество распознавания не проверял.
Подскажите пожалуйста, как такую тему поставить на Ubuntu Desktop 25.04 или на каком форуме это лучше спросить? Сильно не пинайте, я только на прошлой неделе поставил, пока что ничего не понятно. Спасибо!
На reddit r/unixporn r/linux
На сайте программы есть бинари в tar.xz архиве. Плюс там же есть ссылка на PPA для Ubuntu.
>"Сильно не пинайте, "Ну ладно, сильно пинать не будем.
>Добавлен текст, показывающий количество и размер выбранных языков.Вот! Это оно! Этого как раз все и ждали!