Вопросы
Как использовать UTF-8 в логировании Python?
Я пытаюсь записать строку, закодированную в UTF-8, в файл с помощью пакета логирования Python. В качестве простого примера привожу следующий код:
import logging
def logging_test():
handler = logging.FileHandler("/home/ted/logfile.txt", "w", encoding="UTF-8")
formatter =...
Существует ли список символов, похожих на английские буквы?
Я пытаюсь реализовать фильтрацию нецензурной лексики для веб-форума, написанного на Python.
В рамках этой задачи я пишу функцию, которая принимает слово и возвращает все возможные "псевдонаписания" этого слова, используя визуально схожие символы вместо определённых букв (например,...
Python UnicodeDecodeError - Неправильно ли я понимаю кодировку?
Проблема с кодировкой в Python
У меня возникла проблема с кодировкой строки в Python. Я пытался добавить строку 'add \x93Monitoring\x93 to list'
в список, используя метод encode
с параметром 'latin-1'
и ignore
, но это приводит к ошибке. Я ожидал, что параметр 'ignore'
должен был...
Как декодировать закодированную url-строку Unicode в Python?
У меня есть строка в юникоде, например "Tanım", которая каким-то образом закодирована как "Tan%u0131m". Как я могу преобразовать эту закодированную строку обратно в оригинальный юникод? Судя по всему, функция urllib.unquote
не поддерживает юникод.
Unicode символ новой строки (\u000d) в Java
Заголовок: Почему закомментированный код выводит "Hello" на консоль в Java?
Описание проблемы:
У меня есть следующий фрагмент кода на Java:
public class Main {
public static void main(String[] args) {
// new Character(' \u000d System.out.println("Hello");
}
}
В этом...
Как перебрать кластеры графем Unicode в Rust?
Я изучаю язык Rust и был удивлён тем, что Rust различает только байтовые последовательности UTF-8, но не фактические графемные кластеры (то есть диакритические знаки считаются отдельными символами).
Например, Rust может преобразовать входной текст в вектор следующим образом (с помощью...
Как получить не-ASCII URL с помощью urlopen?
Я столкнулся с проблемой при попытке получить данные по URL, содержащему не-ASCII символы. Используя urllib2.urlopen
, я получаю ошибку:
UnicodeEncodeError: 'ascii' codec can't encode character u'\u0131' in position 26: ordinal not in range(128)
Я понимаю, что URL не соответствует...
Python DictWriter: Запись UTF-8 закодированных CSV файлов
У меня есть список словарей, содержащих строки в формате Unicode. Модуль csv.DictWriter
может записывать список словарей в CSV-файл. Я хочу, чтобы CSV-файл был закодирован в UTF-8. Однако модуль csv
не может обрабатывать преобразование строк в формате Unicode в UTF-8.
В документации модуля...
Как лучше всего удалить акценты (нормализовать) в строке Unicode Python?
У меня есть строка в формате Unicode в Python, и я хотел бы удалить все диакритические знаки (акценты).
Я нашел элегантное решение этой задачи в Java:
- Конвертировать строку Unicode в её длинную нормализованную форму (с отдельными символами для букв и диакритиков).
- Удалить все символы,...
`std::wstring` против `std::string`: когда использовать и в чем разница?
Я не могу понять различия между std::string
и std::wstring
. Я знаю, что std::wstring
поддерживает широкие символы, такие как символы Unicode. У меня есть следующие вопросы:
- Когда следует использовать
std::wstring
вместоstd::string
? - Может ли
std::string
содержать весь набор...
Ошибка UnicodeDecodeError при чтении CSV-файла в Pandas
Я запускаю программу, которая обрабатывает 30 000 похожих файлов. Однако некоторые из них останавливаются и выдают следующую ошибку:
File "C:\Importer\src\dfman\importer.py", line 26, in import_chr
data = pd.read_csv(filepath, names=fields)
File...
MySQL: Как получить кодировку базы данных, таблицы или столбца?
Какая (по умолчанию) кодировка символов используется для:
- Базы данных MySQL
- Таблицы MySQL
- Столбца MySQL
Я сталкиваюсь с проблемами, связанными с кодировкой символов в MySQL, и хотел бы прояснить, какая кодировка используется по умолчанию на разных уровнях: для всей базы данных, отдельных...
UnicodeDecodeError: Кодек 'charmap' не может декодировать байт X в позиции Y: символ отображается как <неопределённый>
Я пытаюсь сделать некоторые манипуляции с текстовым файлом, заполненным информацией, используя программу на Python 3. Однако при попытке прочитать файл я получаю следующую ошибку:
Traceback (most recent call last):
File "LOCATION_OF_SCRIPT", line NUMBER, in
text = file.read()
File...
Какие символы можно использовать для отображения треугольников вверх/вниз (стрелка без стержня) в HTML?
Я ищу символ HTML или ASCII, который представляет собой треугольник, направленный вверх или вниз, чтобы использовать его в качестве переключателя.
Я нашел символы ↑ (↑) и ↓ (↓), но у них узкая ножка. Мне нужен только "верх" стрелки в формате HTML.
Проблема в том, что моя...
UnicodeEncodeError: 'ascii' кодек не может закодировать символ u'\xa0' на позиции 20: номер не в диапазоне (128)
Я столкнулся с проблемами при работе с юникодными символами из текста, полученного с разных веб-страниц (на разных сайтах). Я использую библиотеку BeautifulSoup.
Проблема в том, что ошибка не всегда воспроизводима; иногда код работает с некоторыми страницами, а иногда выбрасывает ошибку...