PostgreSQL coub express.js freeware git jquery laravel links linux macos mysql node.js php powershell python ubuntu vim virtualbox анекдот блог игры интересно стихи цитаты

MySQL конвертируем cp1251 внутри latin1 в utf8 или "charset hell"
February 28, 2014
Имеем такую ситуацию: есть бд mysql, все таблицы этой бд в кодировке latin1, текст внутри этих таблиц засунут в кодировке cp1251. Цель: конвертировать таблицы и данные в них в utf8.

КОРОТКО И ВНЯТНО
mysqldump -u user -p --default-character-set=latin1 --set-charset db_name > dump_db.sql
iconv -f cp1251 -t utf8 dump_db.sql > dump_db_utf.sql
Затем заменить в конвертированном дампе кодировку latin1 на utf8 вручную.

ДЛИННО И ВДУМЧИВО
Понадобится: консоль, screen, iconv, vim(другой ваш любимый редактор) и mysql c mysqldump конечно.

Делаем дамп исходной базы обычным образом (чтобы не корячить боевую)
mysqldump -u user -p db_name > dump.sql
Создаем в mysql базу для того чтобы над ней измываться и заливаем туда наш дамп
mysql -u user -p
# ввели пароль, зашли
CREATE DATABASE db1;
# выходим из mysql ^D
mysql -u user -p db1 < dump.sql
# ввели пароль
Итого имеем тоже самое в нашей тестовой базе. Теперь чтобы понять суть проблемы сделаем так: переведем кодировку в screen в cp1251 и заглянем в бд чтобы увидеть русский.
# переводим кодировку консоли в screen (или вашим способом)
^a:encoding cp1251
# идем в mysql
mysql -u user -p
# переключаемся на кодировку нашей бд
set names latin1;
use db1;
# выбираем поле в котором ожидаем русский язык
select field from table_name limit 1;
Если русский увидели то все ок. Дальше все понятно. mysqldump умеет выгружать данные с установленным чарсетом, делается это вот так
mysqldump -u user -p --default-character-set=latin1 --set-charset db1 > dump_db1.sql
То есть выводим содержимое в файл так же как мы смотрели выше через mysql, установив кодировку исходной БД. Теперь открываем наш дамп в vim. Учитывая что кодировка консоли у нас сейчас тоже выставлена в cp1251 - должны увидеть в дампе русский текст. Выходим из редактора и конвертируем дамп
iconv -f cp1251 -t utf8 dump_db1.sql > dump_db1_utf.sql
Теперь меняем кодировку консоли обратно в utf8
# для screen
^a:encoding utf8
Открываем наш дамп в utf8 и правим кодировки latin1 на utf8
vim dump_db1_utf.sql
# замена с подтверждением для vim
:%s/CHARSET=latin1/CHARSET=utf8/gc
Ещё в начале дампа надо будет изменить строку вида
/*!40101 SET NAMES latin1 */;
На вот такую
/*!40101 SET NAMES utf8 */;
Все, имеем дамп в utf8. По аналогии немного повращав мозгами можно справляться с другими подобными заморочками.

Comments

No comments here yet.
You have to login to post a new comment.
aghr