The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Открытые системы на рабочей станции (Unicode, кодировки / FreeBSD)
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Как выдрать из UTF-8 текста указанное количество символов, DHCPep (?), 06-Дек-19, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


5. "Как выдрать из UTF-8 текста указанное количество символов"  +1 +/
Сообщение от Анонимemail (5), 07-Дек-19, 00:23 
Чес слово, ничерта не понял.
В смысле cut -c не работает с utf8 правильно???

[ diablopc@d200 ~ ]$ cat utf8.text 
абвгдежзилмнопрстуфхцчшщ

[ diablopc@d200 ~ ]$ cut -c5-8 utf8.text
дежз

Что не так то?

Ответить | Правка | Наверх | Cообщить модератору

6. "Как выдрать из UTF-8 текста указанное количество символов"  +/
Сообщение от DHCPep (?), 07-Дек-19, 12:20 
> Что не так то?

Проверил, действительно с utf-8 работает cut успешно, но это зависит от настроенной локали пользователя который запускает.
Я это когда проверил под своим юзером, от которого работаю на компе и у которого всё настроено - ок. А в принципе мне надо это решение для скрипта, и работает этот скрипт в джейле, там никаких локалей у пользователя не настроено и там он выдаёт если на начало двухбайтового символа не попадает, то  кракозябру.
user$ cat ~/text.utf8
1234абвгд

user$ cut -c5-7 ~/text.utf8
абв

jail# cut -c5-7 /root/text.utf8
а�

Ну и кроме этого ещё не подходит принципиально cut как инструмент для этого, т.к. он для каждой строки берёт этот диапазон, а мне надо имея текстовый файл получить его отгрызок от такого-то символа до такого-то.

Ответить | Правка | Наверх | Cообщить модератору

10. "Как выдрать из UTF-8 текста указанное количество символов"  +/
Сообщение от ыы (?), 07-Дек-19, 20:44 
>[оверквотинг удален]
> user$ cat ~/text.utf8
> 1234абвгд
> user$ cut -c5-7 ~/text.utf8
> абв
> jail# cut -c5-7 /root/text.utf8
> а�
> Ну и кроме этого ещё не подходит принципиально cut как инструмент для
> этого, т.к. он для каждой строки берёт этот диапазон, а мне
> надо имея текстовый файл получить его отгрызок от такого-то символа до
> такого-то.

устанавливайте локаль прямо в скрипте.

Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру