unicode ×15
Создан 06.01.2025
0
голоса
5
ответов
140
просмотров
Как использовать UTF-8 в логировании Python?

Я пытаюсь записать строку, закодированную в UTF-8, в файл с помощью пакета логирования Python. В качестве простого примера привожу следующий код:

import logging

def logging_test():
    handler = logging.FileHandler("/home/ted/logfile.txt", "w", encoding="UTF-8")
    formatter =...
0
голоса
5
ответов
16
просмотров
Существует ли список символов, похожих на английские буквы?

Я пытаюсь реализовать фильтрацию нецензурной лексики для веб-форума, написанного на Python.

В рамках этой задачи я пишу функцию, которая принимает слово и возвращает все возможные "псевдонаписания" этого слова, используя визуально схожие символы вместо определённых букв (например,...

0
голоса
2
ответов
24
просмотров
Python UnicodeDecodeError - Неправильно ли я понимаю кодировку?

Проблема с кодировкой в Python

У меня возникла проблема с кодировкой строки в Python. Я пытался добавить строку 'add \x93Monitoring\x93 to list' в список, используя метод encode с параметром 'latin-1' и ignore, но это приводит к ошибке. Я ожидал, что параметр 'ignore' должен был...

0
голоса
3
ответов
11
просмотров
Как декодировать закодированную url-строку Unicode в Python?

У меня есть строка в юникоде, например "Tanım", которая каким-то образом закодирована как "Tan%u0131m". Как я могу преобразовать эту закодированную строку обратно в оригинальный юникод? Судя по всему, функция urllib.unquote не поддерживает юникод.

0
голоса
1
ответов
13
просмотров
Unicode символ новой строки (\u000d) в Java

Заголовок: Почему закомментированный код выводит "Hello" на консоль в Java?

Описание проблемы:

У меня есть следующий фрагмент кода на Java:

public class Main {
    public static void main(String[] args) {
        // new Character(' \u000d System.out.println("Hello");
    }
}

В этом...

0
голоса
0
ответов
19
просмотров
Как перебрать кластеры графем Unicode в Rust?

Я изучаю язык Rust и был удивлён тем, что Rust различает только байтовые последовательности UTF-8, но не фактические графемные кластеры (то есть диакритические знаки считаются отдельными символами).

Например, Rust может преобразовать входной текст в вектор следующим образом (с помощью...

0
голоса
5
ответов
17
просмотров
Как получить не-ASCII URL с помощью urlopen?

Я столкнулся с проблемой при попытке получить данные по URL, содержащему не-ASCII символы. Используя urllib2.urlopen, я получаю ошибку:

UnicodeEncodeError: 'ascii' codec can't encode character u'\u0131' in position 26: ordinal not in range(128)

Я понимаю, что URL не соответствует...

0
голоса
3
ответов
17
просмотров
Python DictWriter: Запись UTF-8 закодированных CSV файлов

У меня есть список словарей, содержащих строки в формате Unicode. Модуль csv.DictWriter может записывать список словарей в CSV-файл. Я хочу, чтобы CSV-файл был закодирован в UTF-8. Однако модуль csv не может обрабатывать преобразование строк в формате Unicode в UTF-8.

В документации модуля...

8
голоса
5
ответов
46
просмотров
Как лучше всего удалить акценты (нормализовать) в строке Unicode Python?

У меня есть строка в формате Unicode в Python, и я хотел бы удалить все диакритические знаки (акценты).

Я нашел элегантное решение этой задачи в Java:

  1. Конвертировать строку Unicode в её длинную нормализованную форму (с отдельными символами для букв и диакритиков).
  2. Удалить все символы,...
9
голоса
5
ответов
69
просмотров
`std::wstring` против `std::string`: когда использовать и в чем разница?

Я не могу понять различия между std::string и std::wstring. Я знаю, что std::wstring поддерживает широкие символы, такие как символы Unicode. У меня есть следующие вопросы:

  1. Когда следует использовать std::wstring вместо std::string?
  2. Может ли std::string содержать весь набор...
7
голоса
5
ответов
57
просмотров
Ошибка UnicodeDecodeError при чтении CSV-файла в Pandas

Я запускаю программу, которая обрабатывает 30 000 похожих файлов. Однако некоторые из них останавливаются и выдают следующую ошибку:

  File "C:\Importer\src\dfman\importer.py", line 26, in import_chr
    data = pd.read_csv(filepath, names=fields)
  File...
8
голоса
5
ответов
42
просмотров
MySQL: Как получить кодировку базы данных, таблицы или столбца?

Какая (по умолчанию) кодировка символов используется для:

  • Базы данных MySQL
  • Таблицы MySQL
  • Столбца MySQL

Я сталкиваюсь с проблемами, связанными с кодировкой символов в MySQL, и хотел бы прояснить, какая кодировка используется по умолчанию на разных уровнях: для всей базы данных, отдельных...

11
голоса
5
ответов
56
просмотров
UnicodeDecodeError: Кодек 'charmap' не может декодировать байт X в позиции Y: символ отображается как <неопределённый>

Я пытаюсь сделать некоторые манипуляции с текстовым файлом, заполненным информацией, используя программу на Python 3. Однако при попытке прочитать файл я получаю следующую ошибку:

Traceback (most recent call last):  
  File "LOCATION_OF_SCRIPT", line NUMBER, in   
    text = file.read()
  File...
14
голоса
5
ответов
46
просмотров
Какие символы можно использовать для отображения треугольников вверх/вниз (стрелка без стержня) в HTML?

Я ищу символ HTML или ASCII, который представляет собой треугольник, направленный вверх или вниз, чтобы использовать его в качестве переключателя.

Я нашел символы ↑ (&uarr;) и ↓ (&darr;), но у них узкая ножка. Мне нужен только "верх" стрелки в формате HTML.

Проблема в том, что моя...

15
голоса
5
ответов
45
просмотров
UnicodeEncodeError: 'ascii' кодек не может закодировать символ u'\xa0' на позиции 20: номер не в диапазоне (128)

Я столкнулся с проблемами при работе с юникодными символами из текста, полученного с разных веб-страниц (на разных сайтах). Я использую библиотеку BeautifulSoup.

Проблема в том, что ошибка не всегда воспроизводима; иногда код работает с некоторыми страницами, а иногда выбрасывает ошибку...