Python

Pythonでファイルの文字コードを判定する方法【初心者向け】

初心者向けにPythonでファイルの文字コードを判定する方法について解説しています。最初に文字コードの種類について学び、次に文字コードを指定する方法を実際にコードを書きながら覚えていきましょう。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元：GMOリサーチ株式会社　調査期間：2021年8月12日～8月16日　調査対象：2020年8月以降にプログラミングスクールを受講した18～80歳の男女1,000名　調査手法：インターネット調査

Pythonでファイルの文字コードを判定する方法について解説します。

そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。

今回は、Pythonに関する内容だね！

どういう内容でしょうか？

ファイルの文字コードを判定する方法について詳しく説明していくね！

お願いします！

文字コードとは

文字コードとは、文字を表す番号のことです。コンピューターは数字しか処理できません。よってコンピューターは、それぞれの文字の形（イメージ）に対応付けられた番号の一覧表で文字を管理しています。それが文字コードです。

文字コードはいくつか種類があり、それにより見た目が同じでも番号が異なります。

ASCII

もっとも基礎的な文字コードです。半角英数字128文字から構成されており、全ての文字を1バイトで表します。例えば「A」はASCIIでは0x41(0xは16進数を表す)となります。

Shift_JIS

日本語を表すために多く用いられていた文字コードです。全ての文字を2バイトで表します。亜種がWindowsで採用されていたことで広く使われていました。例えば「あ」はShift_JISでは0x82E0となります。

UTF-8

現在最も広く使われている標準的な文字コードです。全ての文字を1〜4バイトで表します。世界中の文字を扱えるため、標準的に使われるようになりました。例えば「あ」はUTF-8では0xe38182となります。

ファイルの文字コードを判定する書き方

Pythonでは、テキストファイルを読み込む際、書き込む際に文字コードを指定できます。

open("ファイル名", "rまたはw", encoding="文字コード")

encodingの「文字コード」には以下のような値を指定できます。

utf_8	UTF-8
shift_jis	Shift_JIS
ascii	ASCII
euc_jp	日本語EUC
iso2022_jp	JIS

openは、Python の組み込み関数です。ファイルを開き、読み込み／書き込みを行えるようにします。encoding以外にも、いろいろなオプションがあります。詳細は公式ドキュメントを参考にしてください。

https://docs.python.jp/3/library/functions.html#open

[PR] Pythonで挫折しない学習方法を動画で公開中

実際に書いてみよう

今回のサンプルプログラムでは、UTF-8でファイルの書き込み、読み込みを行っています。はじめに書き込みです。

file = "charcode.txt"
fileobj = open(file, "w", encoding = "utf_8")
fileobj.write("このファイルはn")
fileobj.write("UTF-8のn")
fileobj.write("文字コードですn")
fileobj.close()

プログラムと同じフォルダに「charcode.txt」というファイルが作成されます。次に読み込みです。

fileobj = open(file, "r", encoding = "utf_8")
data = fileobj.read()
fileobj.close()
print(data)

実行結果は以下のようになります。

このファイルは
UTF-8の
文字コードです

それでは、読み込みの文字コードを変更するとどうなるでしょうか？

fileobj = open(file, "r", encoding = "shift_jis")
data = fileobj.read()
fileobj.close()
print(data)

実行してみるとエラーになります。

UnicodeDecodeError: 'shift_jis' codec can't decode byte 0x81 in position 4: illegal multibyte sequence

このように、テキストファイルを扱う場合、文字コードを考慮する必要があります。なお、文字コードを自動判定する chardet というライブラリも存在します。文字コードが不明のファイルを扱う場合は利用を検討してみると良いでしょう。

https://pypi.org/project/chardet/

この記事を監修してくれた方

太田和樹（おおたかずき）
ITベンチャー企業のPM兼エンジニア

普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。

開発実績：画像認識技術を活用した駐車場混雑状況把握（実証実験）、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント

地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。

内容分かりやすくて良かったです！

ゆかりちゃんも分からないことがあったら質問してね！

分かりました。ありがとうございます！

TechAcademyでは、初心者でもPythonを使った人工知能（AI）や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。

挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。

プログラミングを独学で学習していて、このように感じた経験はないでしょうか？

・調べてもほしい情報が見つからない
・独学のスキルが実際の業務で通用するのか不安
・目標への学習プランがわからず、迷子になりそう

テックアカデミーでは、このような学習に不安を抱えている方へ、マンツーマンで相談できる機会を無料で提供しています。
30分間、オンラインでどんなことでも質問し放題です。

「受けてよかった」と感じていただけるようカウンセラーやエンジニア・デザイナーがあなたの相談に真摯に向き合います。

「自分に合っているか診断してほしい」
「漠然としているが話を聞いてみたい」
こんなささいな悩みでも大丈夫です。

無理な勧誘は一切ありませんので、まずはお気軽にご参加ください。
※体験用のカリキュラムも無料で配布いたします。（1週間限定）

今なら参加者限定の割引特典付き！無料相談を予約する

Pythonでcronによりプログラムを定期実行する方法（Unix系OS限定）を現役エンジニアが解説【初心者向

Pythonでcronによりプログラムを定期実行する方法（Unix系OS限定）について解説します。そもそもPythonについてよく分からないという方は、...

Python

PythonのライブラリPandasでの要素取得の書き方を現役エンジニアが解説【初心者向け】

PythonのライブラリPandasでの要素取得の書き方について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なの...

Python

PythonでIEEE754形式の浮動小数点を扱う方法について現役エンジニアが解説【初心者向け】

PythonでIEEE754形式の浮動小数点を扱う方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説しま...

Python

Pythonの配列（list）の合計値を計算する方法を現役エンジニアが解説【初心者向け】

Pythonの配列（list）の合計値を計算する方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。 ...

Python

PythonでWebサーバを構築する方法を現役エンジニアが解説【初心者向け】

PythonでWebサーバを構築する方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。 &...

Python

PythonのNoneについて現役エンジニアが解説【初心者向け】

PythonのNoneについて解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が...

Python

あわせてよく読まれている記事

Pythonでファイルに書き込む方法【初心者向け】

Pythonでテキストファイルに書き込む方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介テキストファイルに書き込みを行う方法について詳しく説明していくね！大石ゆかりお願いします！ファイルを開く方法 Pythonでテキストファイルに書き込みを行う場合、以下の操作を行います。ファイルを開くデータを書き込むファイルを閉じるまずは、ファイルを開く／閉じる方法を確認しましょう。ファイルオブジェクト = open(ファイル名, "モード", encoding = "文字コード") ファイルオブジェクト.close() ファイルを開いた結果を、ファイルオブジェクトとして変数に取得します。この変数を用いて、ファイルへの書き込みを行います。モードは3種類あります。 “w”：新規作成（既に同名のファイルが存在すれば上書き） “x”：新規作成（既に同名のファイルが存在すればエラー） “a”：追記（既に同名のファイルが存在すれば末尾に追記） encodingには文字コードを指定します。特別な理由が無ければ「utf_8」を指定しましょう。ファイルに書き込む方法次にファイルにデータを書き込む方法を確認しましょう。ファイルオブジェクト.write(データ) ファイルにデータを書き込む際には、ファイルを開いた時に取得した、ファイルオブジェクトを使います。 [PR] Pythonで挫折しない学習方法を動画で公開中実際に書いてみよう今回のサンプルプログラムでは、「hello.txt」というファイルに、あいさつを書き込んでいます。「n」は「改行」を表します。Macの場合は、option+¥ で入力出来ます。ソースコード file = "hello.txt" fileobj = open(file, "w", encoding = "utf_8") fileobj.write("こんにちはn") fileobj.write("Hellon") fileobj.write("你好n") fileobj.close() 実行すると、サンプルプログラムと同じフォルダに「hello.txt」というファイルが作成されます。実行結果は以下のようになります。こんにちは Hello 你好なお、ファイルを読み込む場合は以下のように記述します。ファイルを開く／閉じるは上記と同様です。readメソッドで読み込みを行います。読み込んだ結果は文字列としてdata変数に取得されます。ソースコード fileobj = open(file) data = fileobj.read() fileobj.close() print(data) 実行結果は以下のようになります。こんにちは Hello 你好この記事を監修してくれた方太田和樹（おおたかずき） ITベンチャー企業のPM兼エンジニア普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。開発実績：画像認識技術を活用した駐車場混雑状況把握（実証実験）、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。大石ゆかり内容分かりやすくて良かったです！田島悠介ゆかりちゃんも分からないことがあったら質問してね！大石ゆかり分かりました。ありがとうございます！ TechAcademyでは、初心者でもPythonを使った人工知能（AI）や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。プログラミングを独学で学習していて、このように感じた経験はないでしょうか？・調べてもほしい情報が見つからない・独学のスキルが実際の業務で通用するのか不安・目標への学習プランがわからず、迷子になりそう

Python

Pythonでファイルの絶対パスを取得する方法【初心者向け】現役エンジニアが解説

Pythonでファイルの絶対パスを取得する方法について解説します。目次パスとは絶対パスを取得する方法実際に絶対パスでフォルダやファイルを取得してみようまとめ田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介ファイルの絶対パスを取得する方法について詳しく説明していくね！大石ゆかりお願いします！パスとはパスとは、パソコンでファイルやフォルダがある場所までの道筋、すなわち目的のフォルダやファイルにたどり着くための住所のようなイメージです。フォルダやファイルの区切りは、Windows であれば「¥」、 Mac や Linux であれば「/」で表します。パスには2種類あり、絶対パスと相対パスがあります。絶対パスパスで一番上の位置をルートといいます。 Windows であればドライブごとに「C:¥」や「D:¥」、Mac や Linux であれば「/」がルートです。このルートからの位置を示したのが絶対パスです。絶対パスは、フォルダやファイルの位置を一意に指定できるという利点があります。 Windowsであればフォルダやファイルを「shift」キーを押しながら右クリックすると「パスのコピー」といったメニューが表示され、簡単に絶対パスをコピーできます。 Macであればフォルダやファイルを選択し「option + command + c」で絶対パスをコピーできます。 Windows C:¥work¥hello.py Mac / Linux /home/user1/work/hello.py 相対パス現在位置を起点とした位置を示したのが相対パスです。現在位置とは、プログラムを実行しているのであれば、そのプログラムを実行中のフォルダです。例えば、あるプログラムを実行している場合、配下の「data」フォルダの指定は以下のようになります。 Mac や Linux の場合、現在位置を表す「.」を付けるのを忘れないようにしましょう。 Windows data Mac / Linux ./data なお、Windows であればコマンドプロンプト、 Mac であればターミナル、 Linux ならシェルを開いた際、現在位置の相対パスが表示されています。以下のコマンドで絶対パスを確認することもできます。現在位置のことを「カレントディレクトリ」と呼び、Pythonでは以下のコードで「カレントディレクトリ」を取得できます。 Windows cd Mac /Linux pwd Python import os os.getcwd() Pythonのコード上でWindowsなどのOS（オペレーティング・システム）に関する操作を実現するためには「import os」を実行し標準ライブラリの osを読み込みます。詳しくはこちらの記事も合わせて参照してみてください。 [PR] Pythonで挫折しない学習方法を動画で公開中絶対パスを取得する方法 Python では、標準ライブラリの os により、絶対パスを取得できます。 impot os os.path.abspath(絶対パス) 実際に絶対パスでフォルダやファイルを取得してみようフォルダの絶対パス現在作業しているフォルダ、「カレントディレクトリ」の絶対パスを取得し、表示します。 # osモジュールのインポート import os # 絶対パスを取得 folder = os.getcwd() #絶対パスの表示 print(folder) 実行結果は以下のようになります。この例ではデスクトップの「work」フォルダが作業場所です。今回は Windows で実行した結果です。 C:Usersuser1Desktopwork ファイルの絶対パス今回のサンプルプログラムでは、プログラムがあるフォルダに「hello.txt」というファイル作成し、その内容を読み込んで表示します。ファイルのパスは、すべて絶対パスで指定しています。 # osモジュールのインポート import os # 絶対パスを取得 file = os.path.abspath("hello.txt") print(file) # 絶対パスを指定して、ファイルに書き込み fileobj = open(file, "w", encoding =

Python

今すぐ対策できる！HTMLで文字化けを直す方法【初心者向け】

今回はHTMLで文字化けを直す方法を説明していきます。『Web制作で謎の文字が出て、意図した日本語が表示できない！』などとお悩みのみなさんは、ぜひこの記事を読んでみてください。文字化け対策自体は、非常に簡単ですのでぜひ理解してくださいね！目次文字化けが起こる原因文字化けさせない書き方（文字化けの直し方）実際に書いてみよう文字化けが起こる原因まずは文字を表示する仕組みと、文字化けが起こる原因をご説明します。文字コード「コンピュータは0と1の世界」と聞いたことがあるのではないでしょうか？コンピュータ内で扱われているデータは、文章も画像も動画も、すべて数字の羅列です。コンピュータが「この数字の羅列はこういう意味だ」という解読ルールを知っていて、人間に理解しやすい文章や画像に変換して画面に表示してくれるので、数字の羅列を意識しなくても使うことができます。例えば文字も、「この数字がこの文字」という対応ルールがあります。この数字と文字の対応ルールのことを、文字コードといいます。文字 2進数 16進数 10進数 0 011 0000 30 48 A 100 0001 41 65 B 100 0010 42 66 a 110 0001 61 97 $ 010 0100 24 36 スペース 010 0000 20 32 改行 000 1010 0A 10 文章　　　　　→　 I am a human ASCII (16進数)　→　73 32 97 109 32 97 32 104 117 109 97 110 コンピュータの世界で一般的に使われている文字コードに、ASCII（アスキー）があります。アルファベットや数字や記号など、キーボードで半角入力できる文字のコードを定めるものです。 1文字を2進数8桁以内で表せるので、1文字あたりのデータ量は1Byteになります。（ASCIIコード表出展 Wikipedia https://en.wikipedia.org/wiki/ASCII ） ASCII文字は、どのコンピュータやスマホも同じように解読できます。 ASCII文字だけで作られている文章は、絶対に文字化けしません。 HTMLやCSSのコードも、ASCII文字だけで記述しますよね。 ASCII以外の文字コードと文字化け人間が使う文字は、ASCIIで定められたアルファベットや数字以外にもたくさんあります。ひらがな、カタカナ、漢字だけではなく、ロシア語も、タイ語も、アラビア語も。多種多様な文字を表すのに、様々な文字コードがあるのです。文字化けは、数字の羅列である文字データを、誤った文字コードで解読し表示したことにより発生します。例えば、文字を書くときはひらがなの文字コードで書いたのに、表示するときにロシア語の文字コードで表示すると、正しく解読できませんね。 Shift-JISとUTF-8と日本語の文字化け Web制作をしていると、日本語で書いた文章を日本語で表示したいのに、文字化けしてしまうことがあります。実は、日本語を表す事のできる文字コードは、よく使われているものが「Shift-JIS」と「UTF-8」の2つあるのです。みなさんが直面する文字化け問題のほとんどは、この「Shift-JIS」と「UTF-8」の取り違えによるものでしょう。「Shift-JIS」は、WindowsやMacなどのOS内で使われている、日本語専用の文字コードです。ひらがな、カタカナ、漢字や、「１」「＠」といった全角の英数字が該当します。 WindowsやMacを使って、何も意識せずに記載した日本語の文章は、「Shift-JIS」の文字コードでデータになるのです。 1文字を2進数で16桁で表せるので、1文字あたりのデータ量は2Byteになります。しかし、インターネットでつながる世界は、日本語以外に様々な言葉が使われていますね。どんな言語でも包括的に表せるように作られた文字コードが「UTF-8」です。例えば、日本語とロシア語とタイ語とアラビア語が混在したWebページを作る必要があるかもしれません。例えば、Shift-JISの文字化けページをロシア人が見ても、そもそも何の文字コードで書かれているかわからず、直すこともできません。そんな問題を防ぐために、UTF-8はどんな文字でも対応できます。全世界で一般的に使われている文字のほとんどだけではなく、数学記号や音楽記号、古代文字、絵文字、麻雀牌まで表すことができます。そのため、データ量は1文字あたり最大4Byte と、「Shift-JIS」などと比べ大きくなってしまうというデメリットもあります。日本語文字コードを間違えると文字化けします Shift-JIS 149 182 142 154 131 82 129 91 131 104 130 240 138 212 136 225 130 166 130 233 130 198 149 182 142 154 137

HTML

Pythonでファイルに書き込みする方法を現役エンジニアが解説【初心者向け】

Pythonでファイルに書き込みする方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonでファイルに書き込みする方法について詳しく説明していくね！大石ゆかりお願いします！ファイルを読み書きする方法データを読み込んだりプログラムの結果を書き込んだりと、プログラミングの際に多く行われるのがテキストファイルの読み書きです。 Pythonでは標準でテキストファイルを読み書きするメソッドが用意されています。この記事ではPythonでテキストファイルを読み書きする方法について確認していきます。 openメソッドの基本テキストファイルを読み書きする際に共通で使用するのがopenメソッドとcloseメソッドです。 openメソッドとcloseメソッドは以下のように使用します。ファイルオブジェクト = open(ファイル名, "モード", encoding = "文字コード") # この間にファイルの読み込み、または書き込みを行う処理を記述するファイルオブジェクト.close() openメソッドの引数については以下のとおりです。ファイル名：読み込みまたは書き込みを行うファイル名を指定しますモード： “w”：書き込み（新規作成。既に同名のファイルが存在すれば上書き） “x”：書き込み（新規作成。既に同名のファイルが存在すればエラー） “a”：書き込み（追記。既に同名のファイルが存在すれば末尾に追記） “r”：読み込み encoding：文字コードを指定します。通常は「”utf_8″」を指定します。 [PR] Pythonで挫折しない学習方法を動画で公開中実際に書いてみよう今回のサンプルプログラムでは、ファイルの書き込みと読み込みの方法について確認します。まずはファイルの書き込みについては以下のとおりです。 # ファイルの書き込み file = "test.txt" fileobj = open(file, "w", encoding="utf_8") for i in range(1,10): fileobj.write("*" * i + "n") fileobj.close() 実行結果は以下のようになります。 test.txtというファイルが作成され、ファイルの内容が以下のようになっていることが確認できます。次はファイルを読み込む方法について確認しましょう。ファイルの内容を変数dataに取得してprint関数で表示しています。 # ファイルの読み込み fileobj = open(file, "r", encoding = "utf_8") data = fileobj.read() fileobj.close() print(data) 実行結果は以下のようになります。 * ** *** **** ***** ****** ******* ******** ********* 監修してくれたメンター太田和樹（おおたかずき） ITベンチャー企業のPM兼エンジニア普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。開発実績：画像認識技術を活用した駐車場混雑状況把握（実証実験）、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント。地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。大石ゆかり内容分かりやすくて良かったです！田島悠介ゆかりちゃんも分からないことがあったら質問してね！大石ゆかり分かりました。ありがとうございます！ TechAcademyでは、初心者でもPythonを使った人工知能（AI）や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。プログラミングを独学で学習していて、このように感じた経験はないでしょうか？・調べてもほしい情報が見つからない

Python

Pythonで文字コードを変換する方法【初心者向け】現役エンジニアが解説

Pythonで文字コードを変換する方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。目次文字コードとは文字コードを変換する書き方実際に書いてみようなお本記事は、テックアカデミーのPythonコースの内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介文字コードを変換する方法について詳しく説明していくね！大石ゆかりお願いします！文字コードとは文字コードとは、文字を表す番号のことです。コンピュータは数字しか処理できないので、人間の言語 (自然言語と呼ばれます) はコンピュータが理解できる形に変換してあげる必要があります。文字コードは、それぞれの文字（イメージ）に対応する番号の一覧表です。文字コードはいくつか種類があり、それにより見た目が同じでも番号が異なります。例えば、Windowsで保存したファイルがMacで文字化けしてしまった経験はありませんか？ OSの違いによる文字化けは文字コードが違うことが原因です。普段はあまり聞き慣れない文字コードですが、プログラミングを行う際、特に日本語を扱う場合には、知っておくと汎用性の高い知識です。 ASCII もっとも基礎的な文字コードで、「アスキー」と発音します。半角英数字128文字から構成されており、全ての文字を1バイトで表します。例えば「A」はASCIIでは0x41 (0xは16進数を表します) となります。上記の0x41のような表現を、「バイト文字」や「バイト列」と呼びます。 Shift_JIS 日本語を扱うために用いられる文字コードで、全ての文字を2バイトで表します。読み方は「シフトジス」です。亜種の cp932 がWindowsで採用されていたことで広く使われていました。例えば「あ」はShift_JISでは0x82E0となります。 Windowsでcsvやtxtファイルを取り扱う場合には、Shift-JISが用いられることが標準的です。 UTF-8 現在最も広く使われている標準的な文字コードで、全ての文字を1〜4バイトで表します。世界中の文字を扱えるため、標準的に使われるようになりました。例えば「あ」はUTF-8では0xe38182となります。 Shift-JISで「あ」を表現する場合とでは、対応する番号が異なっている事が分かりますね。以前のPythonのバージョン2.x (xは任意の数字。2020年4月にサポート終了済) では、標準の文字コードは ASCII だったため、日本語を扱う際は、文字コードを宣言する必要がありました。しかし、現在主流のPython のバージョン3.xでは、標準の文字コードはUTF-8となったため、文字コードを宣言することなく日本語を扱えるようになっています。 [PR] Pythonで挫折しない学習方法を動画で公開中文字コードを変換する書き方 Python の標準の文字コードは UTF-8 です。また標準入出力（外部との情報のやりとり）も UTF-8 の文字列で行われます。そのため、 Pythonのみでデータを取り扱う場合には文字コードを変換する場面は多くありませんが、Python以外のアプリケーションで生成したファイル (.txtや.csv) をPythonで扱う場合には文字コードにも注意が必要です。ファイルから情報を入出力する場合ファイルの文字コードを判別して入出力する必要があります。詳しくは以下の記事を参考にしてください。 Pythonでファイルの文字コードを判定する方法外部のプログラムなどとバイト列で文字列をやりとりする場合文字列とバイト列との変換用に、関数が用意されています。文字列をバイト列に変換するには encode メソッドを使用します。 '文字列'.encode('文字コード名') 逆に、バイト列を文字列に変換するには decode メソッドを使用します。 b'バイト列'.decode('文字コード名') 実際に書いてみよう今回のサンプルプログラムでは、encode、decodeメソッド文字コードを変えてバイト列の内容を確認していきます。実行はPythonインタプリタで行います。コマンドラインで「python」と入力すると「>>>」と表示されますので、1行ずつプログラムを入力します。はじめに文字列を UTF-8 のバイト列に変換してみましょう。 'こんにちは！'.encode('utf-8') 実行結果は以下のようになります。 b'xe3x81x93xe3x82x93xe3x81xabxe3x81xa1xe3x81xafxefxbcx81' 次に、同じ文字列を Shift_JIS の亜種である CP932 のバイト列に変換してみましょう。 'こんにちは！'.encode('cp932') 実行結果は以下のようになります。 UTF-8 の場合と実行結果が異なることが確認できます。 b'x82xb1x82xf1x82xc9x82xbfx82xcdx81I' 最後に、cp932 のバイト列を文字列に変換してみましょう。 b'x82xb1x82xf1x82xc9x82xbfx82xcdx81I'.decode('cp932') 実行結果は以下のようになります。 'こんにちは！' Python 3.x では文字列は UTF-8 なので、encode・decode メソッドを使う機会は多くないかもしれませんが、文字コードを学んでおくとコンピュータが文字をどのように扱っているか、具体的なイメージをもってプログラミングを行えますね。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。

Python

Pythonにおけるunicode decode errorに関する回避方法を現役エンジニアが解説【初心者向け】

Pythonにおけるunicode decode errorに関する回避方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。 Pythonにおけるunicode decode errorを知っておくことで、実務でエラーが発生したときに対応できるようになります。目次文字コードとはファイルの文字コードを判定する書き方実際に書いてみようそもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonにおけるunicode decode errorに関する回避方法について詳しく説明していくね！大石ゆかりお願いします！この記事では、Pythonでファイルを読み込もうとしたときに表示されることのある、UnicodeDecodeErrorに対する対処方法について説明します。文字コードとは？ファイル読み込み時のUnicodeDecodeErrorを回避するために、文字コードの解説をします。文字コードというのは、それぞれの文字に割り振られた識別用のコードのことで、コンピュータで文字を表現するときに必要になってきます。コンピュータやファイルの種類によって文字コードは変わってくるので、ファイルの読み込みや、ファイルの保存の際に意識しておく必要があります。文字コードの種類には、UnicodeやUTF-8、ASCIIやシフトJISなどがあります。次の文字コード表はWikipediaに有る資料の例です。 decode errorとは？ decode errorというのは、文字コードを文字列に変換することができないことで生じるエラーです。例えば次のような、指定文字コードと読み込み文字コードが異なる場合に発生します。データをPythonのstr型の文字列として読み込みたい場合に、指定文字コードと読み込み文字コードの種類が違う文字列の結合などのデータ加工がしたい場合などに、指定文字コードと読み込み文字コードの種類が違う Pythonで文字コードが関係する読み込みファイルは、テキストコンテンツが記載されたtxtファイルや、データを記載したCSVファイルがあります。 Python3では、文字コードに関しPython側で処理してくれることが多くなり、文字コードエラーが少なくなりました。 [PR] Pythonで挫折しない学習方法を動画で公開中unicode decode errorを回避するために正しい記述を理解する unicode decode errorは、読み込みたいファイルの文字コードと、プログラムファイルの文字コードが異なる場合などに発生します。エラーの原因はプログラムファイルの文字コードのせいでエラーが出る場合、コンピュータのデフォルト文字コードのせいでエラーが出る場合、など原因は複数あるます。すべての場合に適用できるような解決策はありませんが、主要な解決策について紹介します。 encodingを指定する読み出したいファイルの文字コードが違う場合には、encodingを指定するのが良いです。次のように、ファイルを読み込む際に、関数の引数にencodingを指定すると良いでしょう。 file_data = open(file, 'r',　encoding="utf-8") プログラムの文字コードを変える Pythonのプログラムファイルの文字コードの設定を変える場合は、プログラムファイルの冒頭に次の記述を記載します。 # -*- coding: utf-8 -*- コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

Python

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

Pythonでファイルの文字コードを判定する方法【初心者向け】

文字コードとは

ASCII

Shift_JIS

UTF-8

ファイルの文字コードを判定する書き方

実際に書いてみよう

関連するキーワード

あわせてよく読まれている記事

Pythonでファイルに書き込む方法【初心者向け】

Pythonでファイルの絶対パスを取得する方法【初心者向け】現役エンジニアが解説

今すぐ対策できる！HTMLで文字化けを直す方法【初心者向け】

Pythonでファイルに書き込みする方法を現役エンジニアが解説【初心者向け】

Pythonで文字コードを変換する方法【初心者向け】現役エンジニアが解説

Pythonにおけるunicode decode errorに関する回避方法を現役エンジニアが解説【初心者向け】

TechAcademyから
現役エンジニアの方へ
お知らせ

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

文字コードとは

ASCII

Shift_JIS

UTF-8

ファイルの文字コードを判定する書き方

実際に書いてみよう

記事を検索

関連するキーワード

関連する記事

あわせてよく読まれている記事

TechAcademyから 現役エンジニアの方へ お知らせ

TechAcademyから
現役エンジニアの方へ
お知らせ