utf-8 ×6
Создан 07.01.2025
0
голоса
0
ответов
16
просмотров
Ошибка UnicodeDecodeError в Python при чтении файла: как игнорировать ошибку и перейти к следующей строке?

У меня есть задача прочитать текстовый файл в Python. Кодировка файла следующая:

file -bi test.csv 
text/plain; charset=us-ascii

Это файл стороннего производителя, и я получаю новый каждый день, поэтому предпочел бы не изменять его. В файле есть нестандартные символы, такие как Ö. Мне...

0
голоса
2
ответов
15
просмотров
"Как вычислить длину строки Java в UTF-8 без её кодирования?"

Заголовок: Как определить длину бинарного представления строки в кодировке UTF-8 без ее генерации?

Текст вопроса: Здравствуйте, я ищу способ получить длину бинарного представления строки в кодировке UTF-8 с помощью стандартной библиотеки Java (любая версия), не создавая при этом само...

0
голоса
0
ответов
19
просмотров
Как перебрать кластеры графем Unicode в Rust?

Я изучаю язык Rust и был удивлён тем, что Rust различает только байтовые последовательности UTF-8, но не фактические графемные кластеры (то есть диакритические знаки считаются отдельными символами).

Например, Rust может преобразовать входной текст в вектор следующим образом (с помощью...

0
голоса
3
ответов
17
просмотров
Python DictWriter: Запись UTF-8 закодированных CSV файлов

У меня есть список словарей, содержащих строки в формате Unicode. Модуль csv.DictWriter может записывать список словарей в CSV-файл. Я хочу, чтобы CSV-файл был закодирован в UTF-8. Однако модуль csv не может обрабатывать преобразование строк в формате Unicode в UTF-8.

В документации модуля...

0
голоса
2
ответов
14
просмотров
Замена акцентированных символов на простые ASCII

Описание проблемы:

Я пытаюсь превратить список фамилий в алфавитно-цифровые имена пользователей, однако некоторые из них содержат не-ASCII символы. Вот пример таких фамилий:

Hernández
Quermançós 
Migueláñez

Одним из способов решения этой проблемы было бы использование регулярных...

13
голоса
3
ответов
52
просмотров
UTF-8 на всех уровнях!

Я настраиваю новый сервер и хочу полностью поддерживать UTF-8 в своем веб-приложении. В прошлом, когда я пробовал это на существующих серверах, мне всегда приходилось возвращаться к ISO-8859-1.

Где именно мне нужно установить кодировку/символьные наборы? Я знаю, что необходимо настроить Apache,...