unicode ×8
Создан 06.01.2025
0
голоса
0
ответов
3
просмотров
Как перебрать кластеры графем Unicode в Rust?

Я изучаю язык Rust и был удивлён тем, что Rust различает только байтовые последовательности UTF-8, но не фактические графемные кластеры (то есть диакритические знаки считаются отдельными символами).

Например, Rust может преобразовать входной текст в вектор следующим образом (с помощью...

8
голоса
5
ответов
30
просмотров
Как лучше всего удалить акценты (нормализовать) в строке Unicode Python?

У меня есть строка в формате Unicode в Python, и я хотел бы удалить все диакритические знаки (акценты).

Я нашел элегантное решение этой задачи в Java:

  1. Конвертировать строку Unicode в её длинную нормализованную форму (с отдельными символами для букв и диакритиков).
  2. Удалить все символы,...
9
голоса
5
ответов
52
просмотров
`std::wstring` против `std::string`: когда использовать и в чем разница?

Я не могу понять различия между std::string и std::wstring. Я знаю, что std::wstring поддерживает широкие символы, такие как символы Unicode. У меня есть следующие вопросы:

  1. Когда следует использовать std::wstring вместо std::string?
  2. Может ли std::string содержать весь набор...
7
голоса
5
ответов
43
просмотров
Ошибка UnicodeDecodeError при чтении CSV-файла в Pandas

Я запускаю программу, которая обрабатывает 30 000 похожих файлов. Однако некоторые из них останавливаются и выдают следующую ошибку:

  File "C:\Importer\src\dfman\importer.py", line 26, in import_chr
    data = pd.read_csv(filepath, names=fields)
  File...
8
голоса
5
ответов
27
просмотров
MySQL: Как получить кодировку базы данных, таблицы или столбца?

Какая (по умолчанию) кодировка символов используется для:

  • Базы данных MySQL
  • Таблицы MySQL
  • Столбца MySQL

Я сталкиваюсь с проблемами, связанными с кодировкой символов в MySQL, и хотел бы прояснить, какая кодировка используется по умолчанию на разных уровнях: для всей базы данных, отдельных...

11
голоса
5
ответов
43
просмотров
UnicodeDecodeError: Кодек 'charmap' не может декодировать байт X в позиции Y: символ отображается как <неопределённый>

Я пытаюсь сделать некоторые манипуляции с текстовым файлом, заполненным информацией, используя программу на Python 3. Однако при попытке прочитать файл я получаю следующую ошибку:

Traceback (most recent call last):  
  File "LOCATION_OF_SCRIPT", line NUMBER, in   
    text = file.read()
  File...
14
голоса
5
ответов
36
просмотров
Какие символы можно использовать для отображения треугольников вверх/вниз (стрелка без стержня) в HTML?

Я ищу символ HTML или ASCII, который представляет собой треугольник, направленный вверх или вниз, чтобы использовать его в качестве переключателя.

Я нашел символы ↑ (&uarr;) и ↓ (&darr;), но у них узкая ножка. Мне нужен только "верх" стрелки в формате HTML.

Проблема в том, что моя...

15
голоса
5
ответов
37
просмотров
UnicodeEncodeError: 'ascii' кодек не может закодировать символ u'\xa0' на позиции 20: номер не в диапазоне (128)

Я столкнулся с проблемами при работе с юникодными символами из текста, полученного с разных веб-страниц (на разных сайтах). Я использую библиотеку BeautifulSoup.

Проблема в том, что ошибка не всегда воспроизводима; иногда код работает с некоторыми страницами, а иногда выбрасывает ошибку...