- gt оверквотинг удален Все сущности которые вы назвали в контексте задачи- пред, ыы (?), 20:22 , 04-Дек-19 (1)
- Попробуйте перевести базу документов всю, или репрезентативную выборку в текст, Licha Morada (ok), 23:31 , 04-Дек-19 (3)
- Полнотекстовый поиск - это Sphinx, Elastic, Solr Копайте в этих направлениях Н, Аноним (4), 10:35 , 05-Дек-19 (4) +1
- Полнотекстовый поиск это любая более-менее современная СУБД А то, что вы пер, Миха (??), 18:17 , 11-Дек-19 (23)
> Полнотекстовый поиск - это Sphinx, Elastic, Solr. Копайте в этих направлениях. На > ютубе есть про них достаточно докладов в контексте большого кол-ва данных > и высоких нагрузок.Полнотекстовый поиск это... любая более-менее современная СУБД. А то, что вы перечислили, это о том, как продать обёртку от конфет, которые кто-то уже съел.
- спасибо большое всем откликнувшимся, datahub.1 (ok), 02:14 , 06-Дек-19 (5)
- 50Т это много для начинающего Купи https ru wikipedia org wiki Google_Search_A, ACCA (ok), 04:02 , 06-Дек-19 (7)
- Ммм а история задачи какая Откуда столько файлов и зачем такой объем в pdf , Pahanivo (ok), 11:14 , 06-Дек-19 (8)
- gt оверквотинг удален Ну вот вам как вариант идеи https www tsgrp com 2015 0, fantom (??), 12:20 , 06-Дек-19 (9)
- gt оверквотинг удален 1 штампуем 50000 баз 50 000 1 000 000 записей 102, cool29 (?), 02:22 , 07-Дек-19 (15)
- Не сработает ни разу 1 PDF могут быть в CP1251, UTF-8, UTF-16, а могут исп, ACCA (ok), 22:48 , 10-Дек-19 (18)
- gt оверквотинг удален ну сказано же 95 содержимого документов текст Кодировк, cool29 (?), 23:51 , 10-Дек-19 (19) +1
>[оверквотинг удален] > 1. PDF могут быть в CP1251, UTF-8, UTF-16, а могут использовать внутреннюю > кодировку. > И это если среди них нет сканов. > 2. В них могут быть опечатки, орфографические ошибки, а то и просто > намешаны разные > алфавиты в одном слове. > 3. Что ты собираешься делать с синонимами? > В одно лицо такой проект не поднять, даже если купить Google Appliance. > Только на ввод данных нужно будет написать кучу уникального софта, разбираясь > с помойкой из кодировок и вариантов формата PDF.ну сказано же 95% содержимого документов текст. Кодировка разумеется 1251. Так как такие проблемы могут быть только в государственном учреждении, где пользуются winXP. По видимому накопили документов, теперь не знают что с ними делать. Вообще не надо ничего перекодировать, все просто загнать в базы с индексом и распаралелить поиск по базам как я описал. Для разработки несколько баз с общим объемом документов до 1 gb. Если технология себя оправдает, то можно будет пробовать загонять туда все документы. Опять же, я предлагал загонять в базу данные автоматическим модулем без использования ручного труда. Про синонимы не понял. Поиск по синонимам вполне возможен при наличии словаря, но здесь не является первостепенной задачей. Главное это вообще хоть какой-нибудь поиск. А дополнительную фичу можно воткнуть и потом.
- вот кстати и как конвертер для извлечения текста из pdfhttps habr com en post , cool29 (?), 00:00 , 11-Дек-19 (20)
вот кстати и как конвертер для извлечения текста из pdfhttps://habr.com/en/post/225647/ Можно и на других языках поискать, в google все есть. Вообще главная задача нам найти документ где есть строка поиска, и потом его номер выдать пользователю, вот и все. Т.е. мы по сути делаем такой огромный текстовый автокэш, поиск по которому и дает нам ссылку на нужные документы.
- Ну и как совсем тупой вариант аннотация Для каждого документа пишется аннотация, cool29 (?), 00:12 , 11-Дек-19 (21)
Ну и как совсем тупой вариант: аннотация. Для каждого документа пишется аннотация(ну т.е. о чем идет речь в документе) на пару абзацев. Поиск осуществляем по аннотации, т.е. где то 1000 байт на 1 документ. Ну и раз придется перебрать все документы, то заодно сделать каталогизацию(сложить документы по каким нибудь критериям: документы бухгалтерии, документы отдела кадров, судебные решения и.т.д). Здесь уже просто поиск по базе данных и интерфейсы для операторов, которые будут заниматься вводом данных.
- Хорошая идея Если ты сможешь за 5 минут прочитать документ и написать аннотацию, ACCA (ok), 13:39 , 11-Дек-19 (22)
> Ну и как совсем тупой вариант: аннотация. > Для каждого документа пишется аннотация(ну т.е. о чем идет речь в документе)Хорошая идея. Если ты сможешь за 5 минут прочитать документ и написать аннотацию, то на 50М документов тебе понадобится всего 4363 человеко-лет. А ещё 50М документов гарантируют, что далеко не все будут в 1251, так что и левая шняга на жабе не поможет. С ETL придётся разбираться всерьёз и надолго. Там ещё одни грабли поджидают - исходных документов окажется не 50М, а ближе к 300М. Про дубли и разные версии тебе просто забыли сказать - тыжепрограммист.
- Ну тут конечно я чет не посмотрел на кол-во документов Мдам Чем такой фигней, cool29 (?), 22:06 , 11-Дек-19 (26)
>> Ну и как совсем тупой вариант: аннотация. >> Для каждого документа пишется аннотация(ну т.е. о чем идет речь в документе) > Хорошая идея. Если ты сможешь за 5 минут прочитать документ и написать > аннотацию, то на 50М документов тебе понадобится всего 4363 человеко-лет. > А ещё 50М документов гарантируют, что далеко не все будут в 1251, > так что и левая шняга на жабе не поможет. С ETL > придётся разбираться всерьёз и надолго. > Там ещё одни грабли поджидают - исходных документов окажется не 50М, а > ближе к 300М. Про дубли и разные версии тебе просто забыли > сказать - тыжепрограммист.Ну тут конечно я чет не посмотрел на кол-во документов. Мдам.... Чем такой фигней страдать, я бы уволился. Хотя в обмен на безсмертие, можно 4363 лет поработать даже бесплатно.)))
- структура разных версий pdf известна Задача определить кодировку документа трев, Миха (??), 18:27 , 11-Дек-19 (25)
структура разных версий pdf известна. Задача определить кодировку документа тревиальна. Как и язык символов тоже.
- Структура известна - каждый вендор реализовал PDF по-своему, со своими глюками , ACCA (ok), 06:47 , 17-Дек-19 (27)
> структура разных версий pdf известна. Задача определить кодировку документа тревиальна. > Как и язык символов тоже.Структура известна - каждый вендор реализовал PDF по-своему, со своими глюками. Теперь ты должен определить, где именно он накосячил. "Язык символов" в некоторых документах - глифы. То есть каждая буква - это некоторая последовательность закорючек, уникальная для данного документа. Они это специально сделали, чтобы ты за**лся расшифровывать. Тебе ещё объяснять, или ты уже понял?
- Нет какого-то волшебного средства для полнотекстового поиска Есть много шумих, Миха (??), 18:24 , 11-Дек-19 (24)
Нет какого-то волшебного средства для "полнотекстового поиска". Есть много шумихи вокруг этой темы, но как и любая прочая шумиха, шумиха эта не про решение проблемы, а про продвижение личностей тех, кто шумит. Все "серебряные пули" (всякие там эластики с ходупами) сводятся к кэшированию наиболее востребоанных путей. Тоже самое делают просто любые современные традиционные реляционные СУБД. И делают, в общем, чаще всего банально быстрее (не медленней точно). В общем, полнотекстовый поиск это всегда про скорость ввода/вывода. И всё. Каких-то особенно полезных программных уловок тут нет.
|