Symfoware

Symfowareについての考察blog

MariaDB 10.0で絵文字の寿司ビール問題に対応する

MySQL で utf8 と utf8mb4 の混在で起きること


MySQL の utf8 は4バイト文字を扱うことができません。



知らなかったです。
MariaDB 10.0でも同様の挙動なのか調べてみました。


テーブル



utf8とutf8mb4で同じレイアウトのテーブルを作成しました。


CREATE TABLE t_utf8 (
id MEDIUMINT NOT NULL AUTO_INCREMENT PRIMARY KEY,
value varchar(255) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;


CREATE TABLE t_utf8mb4 (
id MEDIUMINT NOT NULL AUTO_INCREMENT PRIMARY KEY,
value varchar(255) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;







サンプルプログラム



CodeIgniterでデータベースを検索・登録するサンプルを作成してみます。

・application/controllers/Test.php


  1. <?php
  2. class Test extends CI_Controller {
  3.     
  4.     function __construct() {
  5.         parent::__construct();
  6.         
  7.         $this->load->database();
  8.         $this->load->helper('url_helper');
  9.         $this->load->library('form_validation');
  10.     }
  11.     
  12.     public function index() {
  13.         
  14.         $view_data = [];
  15.         
  16.         // 2つのテーブルを検索して、結果を表示
  17.         $view_data['utf8_rows'] = $this->db->get('t_utf8')->result_array();
  18.         $view_data['utf8mb4_rows'] = $this->db->get('t_utf8mb4')->result_array();
  19.         
  20.         $this->load->view('test', $view_data);
  21.         
  22.     }
  23.     
  24.     public function post() {
  25.         
  26.         // 入力チェックしつつ、入力が得られれば2つのテーブルにデータを登録
  27.         $this->form_validation->set_rules('input_text', 'text', 'required');
  28.         
  29.         if ($this->form_validation->run()) {
  30.             //検証通過ならデータベース登録
  31.             $data = [
  32.                 'value' => set_value('input_text')
  33.             ];
  34.             
  35.             $this->db->insert('t_utf8', $data);
  36.             $this->db->insert('t_utf8mb4', $data);
  37.         }
  38.         
  39.         $this->index();
  40.         
  41.     }
  42.     
  43. }





・application/views/test.php


  1. <!DOCTYPE html>
  2. <html lang="ja">
  3. <head>
  4.     <meta charset="utf-8">
  5.     <title>utf8テスト</title>
  6. </head>
  7. <body>
  8. <div>
  9.     <form method="post" action="<?php echo site_url('test/post'); ?>">
  10.         <?php echo form_error('input_text'); ?>
  11.         <input type="text" name="input_text">
  12.         <input type="submit" value="登録">
  13.     </form>
  14. </div>
  15. <div>
  16.     <h3>UTF8</h3>
  17.     <ul>
  18.         <?php foreach($utf8_rows as $row): ?>
  19.         <li><?php echo $row['value']; ?></li>
  20.         <?php endforeach; ?>
  21.     </ul>
  22.     <h3>UTF8MB4</h3>
  23.     <ul>
  24.         <?php foreach($utf8mb4_rows as $row): ?>
  25.         <li><?php echo $row['value']; ?></li>
  26.         <?php endforeach; ?>
  27.     </ul>
  28. </div>
  29. </body>
  30. </html>






utf8



データベースの設定ファイル
application/config/database.php
これを以下のように設定しました。


  1. $active_group = 'default';
  2. $query_builder = TRUE;
  3. $db['default'] = array(
  4.     'dsn'    => '',
  5.     'hostname' => 'localhost',
  6.     'username' => 'root',
  7.     'password' => 'P@ssw0rd',
  8.     'database' => 'sample',
  9.     'dbdriver' => 'mysqli',
  10.     'dbprefix' => '',
  11.     'pconnect' => FALSE,
  12.     'db_debug' => (ENVIRONMENT !== 'production'),
  13.     'cache_on' => FALSE,
  14.     'cachedir' => '',
  15.     'char_set' => 'utf8',
  16.     'dbcollat' => 'utf8_general_ci',
  17.     'swap_pre' => '',
  18.     'encrypt' => FALSE,
  19.     'compress' => FALSE,
  20.     'stricton' => FALSE,
  21.     'failover' => array(),
  22.     'save_queries' => TRUE
  23. );




utf8指定です。


日本語の登録、検索は問題なし。

729_01.png

729_02.png


絵文字を登録してみます。
入力は「🍣🍺は最高!」

729_03.png

729_04.png


utf8は空白、utf8mb4は文字化けした状態で登録されました。
utf8、入力チェックの検証を通過しつつ空白で登録されてしまいます。


MariaDB [sample]> select * from t_utf8;
+----+--------------------------+
| id | value                    |
+----+--------------------------+
| 1 | 日本語登録テスト         |
| 2 |                         |
+----+--------------------------+
2 rows in set (0.00 sec)

MariaDB [sample]> select * from t_utf8mb4;
+----+--------------------------+
| id | value                    |
+----+--------------------------+
| 1 | 日本語登録テスト         |
| 2 | ????????は最高!         |
+----+--------------------------+
2 rows in set (0.00 sec)








utf8mb4



データベース接続設定を変更します。


  1. $active_group = 'default';
  2. $query_builder = TRUE;
  3. $db['default'] = array(
  4.     'dsn'    => '',
  5.     'hostname' => 'localhost',
  6.     'username' => 'root',
  7.     'password' => 'P@ssw0rd',
  8.     'database' => 'sample',
  9.     'dbdriver' => 'mysqli',
  10.     'dbprefix' => '',
  11.     'pconnect' => FALSE,
  12.     'db_debug' => (ENVIRONMENT !== 'production'),
  13.     'cache_on' => FALSE,
  14.     'cachedir' => '',
  15.     'char_set' => 'utf8mb4',
  16.     'dbcollat' => 'utf8mb4_general_ci',
  17.     'swap_pre' => '',
  18.     'encrypt' => FALSE,
  19.     'compress' => FALSE,
  20.     'stricton' => FALSE,
  21.     'failover' => array(),
  22.     'save_queries' => TRUE
  23. );




日本語の登録は問題なし。

729_05.png

729_06.png


「🍣🍺は最高!」を登録してみます。

絵文字を含む文字列はutf8は絵文字の部分が文字化け。
utf8mb4は正常登録という結果になりました。

729_07.png

729_08.png



知らないって罪ですね...
MySQLだけでなく、MariaDBでもutf8mb4を使用したほうが良さそうです。

関連記事

テーマ:プログラミング - ジャンル:コンピュータ

  1. 2017/01/22(日) 23:06:40|
  2. MySQL
  3. | トラックバック:0
  4. | コメント:0
  5. | 編集
<<Python YouTubeの動画をダウンロード(pytube,Pafy) | ホーム | OpenCV 3.2をDebian 8にインストールする>>

コメント

コメントの投稿


管理者にだけ表示を許可する

トラックバック

トラックバック URL
http://symfoware.blog68.fc2.com/tb.php/1952-ee570dbe
この記事にトラックバックする(FC2ブログユーザー)