Javaのsubstring関数で文字列を指定バイト数だけ切り出す方法を現役エンジニアが解説【初心者向け】

TechAcademyマガジンは受講者数No.1のオンラインプログラミングスクールTechAcademy [テックアカデミー]が運営。初心者向けに解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。

Javaのsubstring関数で文字列を指定バイト数だけ切り出す方法について、TechAcademyのメンター(現役エンジニア)が実際のコードを使用して初心者向けに解説します。
 

そもそもJavaについてよく分からないという方は、Javaとは何なのか解説した記事を読むとさらに理解が深まります。
 

なお本記事は、TechAcademyのオンラインブートキャンプJava講座の内容をもとに作成しています。

 

田島悠介

今回は、Javaに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

Javaのsubstring関数で文字列を指定バイト数だけ切り出す方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

substring関数とは

Javaのsubstring関数は文字数を指定して文字列を切り出す関数です。

substringの書き方は以下の形式です。

文字列.substring(int 始点, int 切り出す文字数);

第1引数には、最初の文字を0番目として何番目の文字以降を切り出すかをint型で指定します。

第2 引数(任意)には、何個文字を切り出すかをint型で指定します。指定しない場合はその文字列の末尾まで抽出します。

string str = "HelloWorld";
System.out.println(str.substring(5)); 
System.out.println(str.substring(0, 5));

1つ目のprint文の結果は「World」です。ここの引数は5番目の文字以降を全て抽出するという意味になります。

2つ目のprint文の結果は「Hello」です。ここの引数は0番目の文字列から5個文字を抽出するという意味になります。

 文字列を指定バイト数だけ切り出す方法

Javaのsubstring関数は文字数をベースに切り出します。

バイト数をベースに文字数を切り出す関数は、Javaの組み込み関数として存在しません。

ここでは文字列を指定バイト数だけ切り出すには、どうすればよいかを説明します。

原始的な方法ですが、文字列から1文字ずつ切り出し、その文字のバイト数を数える方法で実現します。

[PR] プログラミングで挫折しない学習方法を動画で公開中

実際に書いてみよう

日本語は特に文字コードによってバイト数が異なります。

文字コードを指定する引数を用意し、コードは以下のようになります。

/**
 * @param text 対象となる文字列
 * @param index 切り出すバイト数
 * @param charset 文字コード
 * @return
 */
public static String substringByBytes(String text, int index, String charset) {

  String ret = "";

  try {

  int textByteCnt = 0; 
    for (int i = 0; i < text.length(); i++) {

      //対象となる文字列を先頭から1文字切り出し、その文字のバイト数を調べます。
      String tmpText = text.substring(i, i + 1);
      byte[] tmpTextByte = tmpText.getBytes(charset);

      //切り出した文字を変数retに追加した際のバイト数が指定バイト数より大きければ、変数retを返します。
      if (textByteCnt + tmpTextByte.length > index) {
        return ret;
      } else {
        ret = ret + tmpText;
        textByteCnt = textByteCnt + tmpTextByte.length;
      }
    }
  } catch (Exception ex) {
     ex.printStackTrace();
  }
  return ret;
}

public static void main(String[] args) {

  String hoge = "ハローワールド";
  System.out.println(hoge);
  System.out.println("文字コードUTF-8で9バイト抽出:" + substringByBytes(hoge, 9, "UTF-8"));
  System.out.println("文字コードSJIS で9バイト抽出:" + substringByBytes(hoge, 9, "Shift_JIS"));

}

このコードの結果は以下です。

まとめ

いかがでしたか。今回はsubstring関数を使用した文字数やバイト数をベースに文字列を切り出す方法を説明しました。

実務では規則性のある文字列に対してsubstring関数を使用した切り出しを行います。

例えば、西暦から「20200831」を年月日に分解する際には「0-3」「 4-5」「 6-7」番目を抽出するするようにコーディングすれば良いです。

 

監修してくれたメンター

メンターSさん

システムエンジニアとしてこれまで行政システムや医療用システムの保守、開発に携わりました。

JavaやPython、PHP、Kotlinなど様々な言語での開発経験があります。

TechAcademyではJavaコース、Pythonコース、AIコースなど7コースを担当しています。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

TechAcademyでは、初心者でも最短4週間でJavaやServletの技術を使ってWebアプリケーション開発を習得できるオンラインブートキャンプJava講座を開催しています。

挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。