URL: https://www.opennet.dev/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 109444
[ Назад ]

Исходное сообщение
"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."

Отправлено opennews , 20-Окт-16 12:31 
Компания Explosion AI, специализирующаяся на разработках, связанных с искусственным интеллектом и машинным обучением, представила (https://explosion.ai/blog/spacy-deep-learning-keras) первый значительный выпуск свободной библиотеки spaCy (https://spacy.io/), в которой воплощены в рабочий код результаты последних достижений в области распознавания текста на естественном языке (NLP (https://ru.wikipedia.org/wiki/%D0%9E%D0%... Natural Language
Processing). Библиотека написана на языке Cython (http://cython.org/) (расширение Python, позволяющее использовать вставки на языке Си), совместима с  CPython 2.6+/3.3+ на платформах Unix/Linux, macOS и Windows, и распространяется (https://github.com/explosion/spaCy) под лицензией MIT. Языковые модели пока подготовлены только для английского и немецкого языков (размер каждой модели около 500Мб).

Библиотека рассчитана на применение в конечных продуктах, снабжена исчерпывающей документацией и предоставляет целостный API, для которого гарантируется обратная совместимость. Большинство имеющихся разработок в области NLP представляют собой исследовательские проекты, реализующие сразу несколько альтернативных алгоритмов, но не готовые для поставки конечному потребителю. В spaCy обеспечена поддержка только одного алгоритма, демонстрирующего наибольшую эффективность. В случае появления более эффективного алгоритма библиотека будет переведена на него, но этот перевод останется незаметным для завязанных на библиотеку приложений и не повлияет на API. Особенностью spaCy также является архитектура, рассчитанная на обработку документов целиком, без предварительной обработки в препроцессорах, разбивающих документ на фразы.

По производительности  spaCy значительно превосходит проекты ClearNLP (https://github.com/clir/clearnlp), CoreNLP (http://stanfordnlp.github.io/CoreNLP/), MATE (https://code.google.com/archive/p/mate-tools/) и Turbo (https://github.com/andre-martins/TurboParser), и тратит на обработку документа менее 50 мс. Ценой высокой скорости является незначительное снижение точности -  spaCy  отстаёт по точности на 2% от наиболее эффективной альтернативной релизации, но работает на порядок быстрее. Например, spaCy при точности в 91.8% выполняет обработку 13963 слов в секунду, в то время как библиотека MATE при точности в 92.5% обрабатывает 550 слов в секунду, а библиотека Turbo при точности в 92.4% обрабатывает 349 слов в секунду.

Основные возможности spaCy:


-  Разбор зависимостей на основе меток (точность 91.8% в тесте OntoNotes 5);
-  Распознавание именованных сущностей (точность 82.6% в тесте OntoNotes 5);
-  Пометка частей речи (точность 87.1% в тесте OntoNotes 5);
-  Легко используемые векторы расстановки слов;
-  Присвоение всем строкам цифровых идентификаторов;
-  Экспорт массивов данных для обработки в библиотеке NumPy;
-  Сохранение выравнивания как в исходной строке, что упрощает расчёт разметки;
-  Наличие простых орфографических функций;
-  Отсутствие препроцессора, spaCy обрабатывает текст как есть;
-  Поддержка подключения механизмов глубинного машинного обучения.


URL: https://explosion.ai/blog/spacy-deep-learning-keras
Новость: http://www.opennet.dev/opennews/art.shtml?num=45351


Содержание

Сообщения в этом обсуждении
"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Анонимус_б6_выпуск_3 , 20-Окт-16 12:31 
поясните простыми словами человеку, далекому от умных слов в тексте новости, для чего прикладного это будет применяться?

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено A.Stahl , 20-Окт-16 12:41 
Ну, например, можно будет написать спамбота, который будет так спамить, что хрен какой фильтр сработает.
А ещё можно написать такой спамфильтр, что как бы ты ни спамил, то всё равно тебя вычислят.
А ещё можно будет сделать бота, который будет обижаться если ты будешь его оскорблять.
А ещё можно сделать бота, который и тебя сможет оскорбить.

Но самое главное его применение -- управление корчевателем.


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Аноним , 20-Окт-16 14:15 
Для того, чтобы сделать бота, который сможет кого-нибудь оскорбить никакие лингвистические системы не нужны
И обижаться он не будет на твои оскорбления, разве что можно написать бота, который на оскорбления будет оскорблять в обратку - тут да, библиотека поможет найти такой евент

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Какаянахренразница , 20-Окт-16 15:09 
> Ну, например, можно будет написать спамбота, который будет так спамить,
> что хрен какой фильтр сработает.
> А ещё можно написать такой спамфильтр, что как бы ты ни спамил, то всё
> равно тебя вычислят.

А может ли бог создать камень, который сам не сможет поднять? Если на этом софте написать спамбота и спамфильтр, а потом стравить их, то кто победит?


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено A.Stahl , 20-Окт-16 15:37 
>А может ли бог создать камень, который сам не сможет поднять?

Смотря что за бог. Если ты про того, который всемогущий, то конечно же может. Он же всемогущий.
>Если на этом софте написать спамбота и спамфильтр, а потом стравить их, то кто победит?

А почему кто-то должен победить? Кто победит в дуэли человек-потребитель и человек-продавец? Когда как. Иногда может даже маразм победить.


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Какаянахренразница , 20-Окт-16 16:28 
> Смотря что за бог. Если ты про того, который всемогущий, то конечно же может.
> Он же всемогущий.

Сможет создать или сможет поднять? :-)

> А почему кто-то должен победить?

Потому что принципиально возможны лишь два выхода: фильтр либо отсеет бота (победа фильтра, проигрыш бота), либо не отсеет (победа бота, проигрыш фильтра). В отличие от "дуэли человек-потребитель и человек-продавец", здесь нет win-win.


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено A.Stahl , 20-Окт-16 16:35 
>Сможет создать или сможет поднять? :-)

И то и другое. Просто по определению всемогущества.
>Потому что принципиально возможны лишь два выхода

Не вижу отличия от дуэли человек-человек.


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Какаянахренразница , 20-Окт-16 16:46 
> Не вижу отличия от дуэли человек-человек.

Правда? Отличие в том, что игра продавец-покупатель не является игрой с нулевым результатом. Выигрыш одного не означает проигрыш другого. Они лишь делят между собой выгоду от сделки. Поэтому им доступна кооперативная стратегия (имеет смысл договариваться).


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено A.Stahl , 20-Окт-16 17:21 
Ок. Пусть. Но при борьбе фильтров может сначала победить один, а потом другой. Вероятность при полном отсутствии данных? Около 0.5
Если фильтр скажет, что перед ним спам с 50% вероятностью, то кто победил?
Твой вопрос просто лишён смысла. Я вообще не понимаю что ты хочешь услышать.

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Какаянахренразница , 20-Окт-16 18:33 
> Но при борьбе фильтров может сначала победить один, а потом другой.

Ага, всемогущий бог сначала создаст неподъёмно огромный камень, а потом вспомнит, что он всемогущий, и всё-таки поднимет его.

> Если фильтр скажет, что перед ним спам с 50% вероятностью

Безразлично, что он скажет. Перед ним бинарная задача: блокировать или пропускать.

> Твой вопрос просто лишён смысла. Я вообще не понимаю что ты хочешь услышать.

Там нет вопроса. Там ненавязчивый намёк на то, что в твоём комменте #2 имеется внутреннее противоречие.


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено A.Stahl , 20-Окт-16 19:46 
>а потом вспомнит, что он всемогущий

Нет, он просто всемогущий. И точка.
Да, он может создать слишком тяжёлый для себя камень.
Да, он может суметь его поднять.
Да, он может не суметь его поднять.
Он может универсум на квантор всеобщности натянуть.
Он может всё.
Он всемогущий.


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Я. Р. Ош , 21-Окт-16 00:33 
>Он может универсум на квантор всеобщности натянуть.

незавидная у тебя судьба


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Какаянахренразница , 21-Окт-16 03:21 
> Нет, он просто всемогущий. И точка.

Ты чё... это ... верующий, штоле??? Я думал, тут только Шигорин такой, местами нелогичный.


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено A.Stahl , 21-Окт-16 08:18 
Верующий? Ты бы извинился...

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Какаянахренразница , 21-Окт-16 10:52 
Я обознался? Прошу прощения. Это тот редкий случай, когда я рад, что ошибся.

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено 1111 , 22-Окт-16 02:03 
> Сможет создать или сможет поднять? :-)

Сначала сможет его создать, затем сможет его поднять.
(Например можно создать камень размером со вселенную
(или, например, до начала существования пространства),
и поднимать его будет не от чего и некуда, затем создать
"небо и землю", чтобы было откуда и куда его поднимать )
будте гибче. ;)


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Павел Самсонов , 24-Окт-16 11:42 
>> Сможет создать или сможет поднять? :-)
> Сначала сможет его создать, затем сможет его поднять.
> (Например можно создать камень размером со вселенную
> (или, например, до начала существования пространства),
> и поднимать его будет не от чего и некуда, затем создать
> "небо и землю", чтобы было откуда и куда его поднимать )
> будте гибче. ;)

Я не верю, что Бог творил материю. "Сначала Бог сотворил небо и землю, земля же была безвидна и пуста..." - это же метафора - мол изначала земля была безвидна и пуста и типа откуда-то была (Бог сотворил). Не может никто творить никаких камней и никаких материй ...


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено J.L. , 15-Ноя-16 10:51 
>> Не может никто творить никаких камней и никаких материй...

ваши данные устарели, камни и материю могут даже простые смертные физики с помощью ускорителя творить из "ничего"


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено KBAKEP , 20-Окт-16 16:31 
Какой же он всемогущий, если не может поднять созданный собой же камень?

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено A.Stahl , 20-Окт-16 17:44 
Почему не может? Может. Он же всемогущий.

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Аноним , 20-Окт-16 17:57 
Ну какой же он всемогущий если даже не может создать камень, который невозможно поднять?

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено synweap , 20-Окт-16 19:44 
Решение этой философской проблемы:

1. Всемогущим Бог является постольку, поскольку для Него нет ничего невозможного.
2. Всемогущий Бог по определению может создать такой камень, но создав его, Он потеряет всемогущество.
3. Чтобы оставаться всемогущим, Богу необходимо воздерживаться от создания подобных камней.

Вывод: Бог такой камень создать сможет, но не станет, чтобы не потерять всемогущество.


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено rshadow , 20-Окт-16 20:02 
Есть еще ответ "попроще": да, и он его создал - это человек.

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Какаянахренразница , 21-Окт-16 02:07 
Это не философская проблема. Это иллюстрация фундаментального противоречия в чьей-то там теории множеств.

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено BeRUS , 22-Окт-16 10:36 
Сорри))

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено J.L. , 15-Ноя-16 10:56 
> Ну какой же он всемогущий если даже не может создать камень, который
> невозможно поднять?

вы не понимаете как это работает:

0) бог в состоянии всемогущества
1) бог выбирает себе задачу
2) бог выполняет задачу
3) после выполнения задачи бог переходит в состояние "0" и приступает к выполнению следующей задачи

тоесть на момент выполнения задачи б) "поднять камень" задача а) "создать камень" уже выполнена и уже не актуальна


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено anonymous , 21-Окт-16 00:14 
> А может ли бог создать камень, который сам не сможет поднять?

А сможешь ли ты вообразить в своём сознании такой камень, который не поместится в твоё сознание?


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Какаянахренразница , 21-Окт-16 02:09 
>> А может ли бог создать камень, который сам не сможет поднять?
> А сможешь ли ты вообразить в своём сознании такой камень, который не
> поместится в твоё сознание?

А свопить можно?


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Led , 21-Окт-16 21:58 
>>> А может ли бог создать камень, который сам не сможет поднять?
>> А сможешь ли ты вообразить в своём сознании такой камень, который не
>> поместится в твоё сознание?
> А свопить можно?

Нет. Но оверкоммит разрешён.


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Ordu , 21-Окт-16 23:07 
С камнем никто не пытался, а вот с астрономическими явлениями, в частности со звёздами такое бывает. Кто-то из астрономов, описывая звёзды гиганты, сказал, что-то в стиле "представь себе самую большую звезду, которую можешь представить... так вот, супергигант ещё больше".

На ютубе есть видяшка: https://youtu.be/HEheh1BH34Q

И каждый раз разглядывая её, я очень двояко себя чувствую, как будто я представил себе размеры VY Большого Пса, и при этом не смог представить себе размеры VY Большого Пса. Одновременно и да, и нет. И если ты знаешь ответ на свой вопрос, то мне было бы интересно его услышать.


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено ПавелС , 20-Окт-16 15:39 
> Ну, например, можно будет написать спамбота, который будет так спамить, что хрен
> какой фильтр сработает.
> А ещё можно написать такой спамфильтр, что как бы ты ни спамил,
> то всё равно тебя вычислят.
> А ещё можно будет сделать бота, который будет обижаться если ты будешь
> его оскорблять.
> А ещё можно сделать бота, который и тебя сможет оскорбить.
> Но самое главное его применение -- управление корчевателем.

Какое то кусание себя за хвост с этими секюрити и ИИ. Лет 15 назад когда я начинал с компами всё было мирнее - обеспечивает система приемлемый уровень безопасности - ну хорошо.


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Александр , 20-Окт-16 12:58 
Всё предельно просто - для слежки за вами.
И за другими людьми.
Я серьёзно. Вплоть до разбора текстов переведённых из записанных телефонных разговоров (а их ой как много - нелегально хранящихся, да и легально прибавятся сейчас ---- см. "законопроект Яровой" "пакет Яровой").
Такчто, обсуждаемая библиотечка прикрученная к действующим системам даст колоссальный эффект по противозаконному использованию данных о людях против них же.
1.В тюрьмах не все сидят справедливо.
2.О взятых на своё имя кредитах и ипотеках тоже некоторые люди узнают случайно, и уже во время предъявления судебных претензий банком(ами).
3... ... продолжать?

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено тоже Аноним , 20-Окт-16 14:10 
Пакет Яровой преследует ровно две цели:
1) завинчивание гаек в Интернете и коммуникациях вокруг него (то есть практически всех современных средствах связи)
2) попил бюджета на внедрении технологической базы под этот идиотский сбор петабайтов неактуальной информации.

Разобраться в этих петабайтах никакие искусственные интеллекты все равно не помогут. Ибо это классический "демон второго рода", польза от которого описана классиком еще в прошлом веке.


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Mail , 20-Окт-16 14:51 
Зачем в петабайтах? кода нужен конкретный человечек там много-много меньше.

О выборочном "применении закона" слышали?


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено тоже Аноним , 20-Окт-16 14:56 
Ну, расскажите, что мешает организовать "колпак" для конкретного человека без всего этого цирка с датацентрами. Разве что Конституция, но этим пакетом на нее уже положили...

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено НиколайИванович , 20-Окт-16 16:03 
Разработчики -- австралиец и немка, языки -- английский и немецкий. Но использовать это дело будут, понятно, для реализации "пакета Яровой"

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Вареник , 21-Окт-16 01:21 
Прикрутят. На этот раздел IT как раз денег не жалеют.

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено adolfus , 20-Окт-16 14:28 
Ничего нового. Двадцать лет назад в IBM OS/2 4.0 Merlin была обучаемая распознавалка голоса, кажется Voice Type она называлась. Даже в коробочной настройке она позволяла отдавать голосом команды программам, которые имели пулл-даун и/или контекстное меню. По-английски, разумеется. Работало достаточно четко даже с моим английским произношением. Говоришь ему слитно "файл оупен" -- открывает диалог ввода имени файла, говоришьс паузой "файл" ... "оупен" -- открывает сначала пуллдаун File, потом сдвигает курсор на Open и открывает диалог. Вначале кое-какие косяки были, но потом система подстраиваласть под особенности произношения.

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Аноним , 20-Окт-16 16:24 
А это без подстройки, сразу работает. И не небольшое число ключевых слов, а полноценный естественный язык с десятками тысяч слов. Но вероятность ошибки 10%, и от неё так просто не избавишься.

А распознавание небольшого числа голосовых команд на телефонах было уже в начале 2000х. Тоже с предварительным обучением голосом хозяина.


"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Аноним , 21-Окт-16 12:56 
А еще была софтина с SoundBlaster AWE32.

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Аноним , 21-Окт-16 02:36 
А можно на Си или на Python? а не на то и другое... (

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Аноним , 21-Окт-16 02:42 
) Если на их сайте пролистать вниз - SPACY IS TRUSTED BY -- https://foxtype.com/ -- интересно выходит, если посмотреть с этой точки зрения - этож ее к почтовику прикрутить можно )

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено BeRUS , 22-Окт-16 10:32 
А то что в дройде для распознавания речи используется, не из этой ветки?

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Аноним , 24-Окт-16 10:57 
смесь бидона и сей для "обработки на естественном языке" писать? это шедеврально.
про логическое программирование авторы не слышали.
ну или не осилили соотв ЯП, возможно.

"Выпуск spaCy 1.0, библиотеки для обработки информации на ест..."
Отправлено Anonymissimus , 25-Окт-16 06:55 
Если ты такой умный, то где твоя реализация?