2021-01-11

TerraformでAWS ELBリスナーに登録されているターゲットグループを再生成する

terraform AWS IaC

やっとのことALBロードバランサをTerraform管理しようとしたら設定変更や再生成まわりで時間を取られたのでそのまとめ。

ターゲットグループの設定変更の問題

AWSロードバランサにおけるターゲットグループがリスナーとしてロードバランサに登録されていると、一度リスナー登録を削除しない限りターゲットグループを削除できない。ターゲットグループの基本的な設定として、ターゲットの種類やプロトコル、ポートなどは AWSの仕様上、設定変更できないので再作成し直す必要がある。

特にTerraformでロードバランサを管理していると (もちろん基本的な設定を変更する機会というのはほとんどないのだが) ターゲットグループを変更したくても変更できず手詰まりになる。具体的には以下のようなエラーログが出力される。

Error: Error deleting Target Group: ResourceInUse: Target group 'arn:aws:elasticloadbalancing:ap-northeast-1:xxxxxxxx' is currently in use by a listener or a rule
    status code: 400, request id: 65dda169-3495-4d43-8aab-70721d2122ea

このときだけ手作業で修正するというのも1つの手ではあるけれど、できればTerraformでもいい感じに対応したい。

ちなみに、以降の解決策は issueに記載の解決策そのままであるがぴんとこなかったので追試した内容であり、同じ結論に辿りついている。

解決ステップ1: create_before_destroy

上記のようなリソースの依存関係により削除できないケースはターゲットグループにも複数存在する。こういったケースでの主な解決策は lifecycle で create_before_destroy を指定する方法である。

この挙動について、公式ドキュメントに全部記載されているのだが、通常はリソースを削除してから作成するのだが、このオプションを有効にすることで先にリソースを作成してから古いリソースを削除する。具体的には以下のように設定する。

resource "aws_lb_target_group" "sample" {
  name = "sample-alb-target-group"

  port = 80
  protocol = "HTTP"
  target_type = "ip"
  vpc_id = var.vpc_id

  lifecycle {
    create_before_destroy = true
  }
}

ただし、この方法には注意点があり、これも公式ドキュメントに記載さているのだが、同一の名前でリソースが作成できない場合に上手く動作しない。ターゲットグループは名前がユニークである必要があるので、プロトコルやポートを変更しようとして create_before_destroy を有効にしていても同名のリソースが作成できないのでエラーになる。

Error: Error creating LB Target Group: DuplicateTargetGroupName: A target group with the same name 'sample-alb-target-group' exists, but with different settings
    status code: 400, request id: 29d9468f-6665-4b7f-b404-3f12ca0fb8b3

解決ステップ2: name_prefixを利用する

ではこのような課題にどう対処すればよいかというと、名前の先頭だけ指定し、末尾に名前がユニークになるようなランダムな文字列を付与すればよい。 terraformがこのような動作をサポートしており、nameの替わりにname_prefixを指定することで勝手に名前がユニークとなることが保証される。

resource "aws_lb_target_group" "sample" {
  name_prefix = "sample-alb-target-group"

  port = 80
  protocol = "HTTP"
  target_type = "ip"
  vpc_id = var.vpc_id

  lifecycle {
    create_before_destroy = true
  }
}

しかし、この方法ではターゲットグループの場合のみ上手くいかない場合があり、それは name_prefix は6文字以下にする必要があるという制限である。これはドキュメントにも記載がある。

"name_prefix" cannot be longer than 6 characters

Cannot be longer than 6 characters.

しかも、ターゲットグループには descriptionのように説明を記載する項目がないので、名前を6文字に制限するとそのターゲットグループが何なのか一目で判断するのが難しくなる。そのためのterraformコード管理ではあるのだが、できればAWSリソースの名前でも目的等が上手く識別できるように命名したい。

実際、GitHubでも名前が6文字以下では役に立たないよね、という趣旨のissueが登録されている。

解決ステップ3: 自前でname_prefix相当機能を実装する

name_prefix では解決できないとわかったので、自前で name_prefix 相当の機能を実装することで回避する。具体的には名前の末尾にランダムな文字列を付与する。

resource "aws_lb_target_group" "sample" {
  name = "sample-alb-target-group-${substr(uuid(), 0, 6)}"

  port = 80
  protocol = "HTTP"
  target_type = "ip"
  vpc_id = var.vpc_id

  lifecycle {
    create_before_destroy = true
  }
}

上記の例ではUUIDで生成した文字列の先頭6文字をターゲットグループの名前の末尾に追記している。もちろん、このランダムな文字列6文字が偶然重複するとエラーになるのだが、その可能性はかなり低いし心配なら文字数を増やせばよい。 AWSの仕様上、名前は最大32文字までらしいので、 32文字になる最大の文字数だけ付与すればよい (上記例では sample-alb-target-group- が24文字なので8文字のランダムな文字列を付与できる)。

なお、名前にランダムな文字列を付与しようとすると terraform planを実行する度に差分が発生してしまうので、この差分は無視する必要がある。具体的には、lifecycleで名前を ignore_changes に追加すればよい。

resource "aws_lb_target_group" "sample" {
  name = "sample-alb-target-group-${substr(uuid(), 0, 6)}"

  port = 80
  protocol = "HTTP"
  target_type = "ip"
  vpc_id = var.vpc_id

  lifecycle {
    create_before_destroy = true
    ignore_changes = [name]
  }
}

以上により、ターゲットグループがリスナーとして登録されている場合に設定変更で再生成が必要でも上手く対処できるようになった。

2021-01-01

2020年のふりかえりと2021年の抱負

ポエム

2020年のふりかえり

2020年は転職して(転職自体は2019年だけど)さまざまな経験を積めた1年だった。コロナ過によるフルリモート体制への移行やこれに伴う開発・コミュニケーション方法の試行錯誤などなかなか上手くいかない点も多かったけど、それも含めていろいろな学びがあった。

コロナ過による生活の大きな変化のあるなかで、運動機会が減ったこと、そもそも外出が減ったことは健康面であまりよろしくなかった。まだコロナが終息する気配はないので、できることは限られているけれどできる範囲で改善していきたい。

できたこと

本番サービスの構築・運用

転職の主目的であった本番サービスの構築と運用に深く携われることは非常によかった。特にスタートアップにありがちと言われている事業の拡大と開発の混乱を経験できたことは今後の技術者としてのキャリアでも大きく活かしていくことができそう。

運用上必要だけど価値を生まないトイルな作業もまだまだたくさんあって、トイルの撲滅はまだまだ道半ばであまり抜本的な改善にまで着手できなかったことは反省点。

ログ・リソースの可視化

インフラの改善の中で一番インパクトが大きかったのがログやサーバリソースの可視化。従来はログ基盤が整備されておらずログの可視化が上手くできていなかったので、この改善が急務だった。 railsアプリケーションログの出力を構造化(json化)し、ログ分析基盤への投入・可視化を実現することで開発者のだれもが簡単にログを参照できるようになったのはインパクトのある改善だった。

まだまだ十分なログ出力できないケースやログの監視が十分ではないので 2021年も引き続き取組まなくてはいけないけれど、はじめの1歩としては大きな効果を上げることができた。

IaCの実践

terraformやansibleを用いた Infrastructure as Codeの実践もインフラの開発・管理の面では大きな効果があった。従来の最新にアップデートされていないインフラの構築手順書を破棄し、コードだけでインフラが構築できるようになったのはインフラの品質面でも管理面でも大きな効果があった。

一方でansibleやterraformを利用できる人が少なく、インフラ構築作業の属人化が進んでしまったのでチームのインフラ技術力の強化という意味でも、だれでもansibleやterraformを触れるように推進して行きたい。

コンテナの導入

新規開発したサービスのインフラにDockerおよびECSを導入することができた。継続的な改善が必要であること、どれだけ利用されるかわからないこと、研究チームの成果なのでインフラを意識せずにリリースできるようにしたいといった要件からオートスケールなECS基盤を採用して構築・リリースした。これらの取組みは非常によかったと思う。

転職前からDockerは積極的に利用していたのでその知見が活かせて技術展開に取組めたことはよかった。一方でECSのオートスケールについてはもう少し改善したいし、メインのwebアプリへのコンテナ技術の導入はこれからなので、まだまだ課題は残る。引き続きコンテナ化やコンテナ技術の共有は進めていきたい。

インフラのセキュア化

地味だしあまり成果を外部に出せない部分ではあるけれどインフラのセキュリティ向上に向けた取組みも、内部的には大きな意味を持つ内容ではあった。初めてインフラの構成を見たときにはびっくりするような状態だったけどもうそろそろ外に公開しても恥かしくない構成になったのかなとは思う。

セキュリティは今まで積極的に取り組んだことはなかったので、なんとなくの理解の分野が多かったけど、実際にシステムをセキュアにするために取組むことで、改めて学び直すことも多かった。

OKRやアジャイルへの取組み

技術面ではないけれど、会社としてOKRやアジャイル開発の取組みを本格化した1年であり、これを踏まえていろいろと勉強した1年だった。特にOKRは自分としても初めての取組みで、いろいろ勉強しながらではあった。その甲斐あって、一部メンバのみではあるけれどツールの導入や振り返りを実践するようになり、社内でのOKRの理解推進に一役買うことができたかなと思う。

自分が1人インフラチームで開発に取り組んでいてアジャイル開発の観点からは課題が多かったり、1on1などは上手く実践できていないなどの課題もあるのでもう少し自分たちにあったやり方を模索していきたい。

できなかったこと

成果のアウトプット

一番心残りなのが成果を社外にアウトプットできなかったこと。これはセキュリティ面の取組みのように、社外に公開しにくい内容も多かったので単純にアウトプットに適さなかったという面もあるけれど、日々の開発に追われてアウトプットをサボってしまったという面も強い。

社内への知見共有として、社内記事としてのアウトプットはなんとか確保できたけれどもう少し社外へのアウトプットも取組みたかった。なんとか会社のテックブログも始まったけど、あまり他の人はアウトプットに積極的ではなく上手く運用できるか難しいので、少なくとも個人レベルでは社外アウトプットを強化したい。

VRの知見の深化

せっかくVR技術という面白い分野を扱っているのにもかかわらず、このあたりの技術の理解を進めることができなかった。

もちろん、VR技術にもいろいろあって、自分たちが扱うVR技術はそのほんの一部でしかないのだけれど自分たちが扱うVRにも、その周辺技術にも、世の中のトレンドとしてのVR技術にもほとんど触れる機会がなかった。インフラとの間で上手く抽象化されてアプリケーションを考慮する必要がないといえばその通りだけれど、やはり自分たちが扱う技術くらいはきちんと把握しておきたい。

機械学習

機械学習を用いた画像処理なんかは、まさに自分が学生のときに取り組んでいたテーマであり、さらには機械学習を用いたシステムの構築の機会があったにもかかわらずその理論や実装をほとんど深掘りすることができなかった。また、MLOpsといった自分にぴったりなテーマもあるにもかかわらずこれらを実践することができなかった。

今後機械学習システムの運用は対応が必須になってくるし、研究チームとのやりとりも、むしろwebチームより頻度高く行っているくらいなので、ぜひともこのあたりの知見は強化していきたい。

論文

学会レベルでの最新技術動向の収集も大きく遅れてしまった。論文を読むどころか学会誌すら確認できておらず、学会のスケジュール把握もままならない状況。コロナ過で無料でカンファレンスを公開しているケースも多かったみたいだけれど、それらを活かすことなくスルーしてしまった。

転職前から投稿はできていなかったので、論文投稿まで行うことは想定していなかったけどせっかく研究出身なので、自分の扱う分野くらいは動向ウォッチしていきたい。

競技プログラミング

これは業務で扱う技術ではないけれど、趣味としての競技プログラミングもあまり時間を割いて取組むことができなかった。年末に半年ぶりの復帰をしたのはいいけれど、当然普段の精進も行っていなかったのでレートは落ちる一方だった。

世の中のレベルの上昇もあるので最高レート更新は難しいかもだけど、なんとか現状のレートを維持したかった。

2021年の抱負

2020年にできなかったことをやるのはもちろん。それに加え、2020年は目の前のタスクに追われていたので、 2021年は計画的・戦略的にやることを進めていきたい。

抱負としては盛り沢山の欲張りセットになったけど今年もいろいろと取り組んでいきたい。

成果のアウトプット

まずは2020年にできなかった・一番の心残りであった成果のアウトプットについて取り組んでいきたい。具体的にはブログ記事(またQiita/Zenn記事)の執筆、OSSへのコントリビュート、カンファレンス発表に取組みたい。特にブログ記事を中心に、日々取り組んだことをアウトプットしたい。

また2021年は2020年に取り組んだ内容の深化・高度化を図っていきたい。その中でOSSの積極的な活用を通してコントリビュートしたり、ユーザカンファレンス等で取組みをアウトプットできるようにしたい。

運用・監視の深化

社内唯一のインフラエンジニアとして、SREの取組みをしている身として、運用は自分がメインで取り組んでいる内容なのでここをしっかりと頑張りたい。 2020年に自分のシステム運用の取組みが始まったばかりなので、この高度化に取り組んでいきたい。障害まわりの対応はもちろん、リソースの監視や脆弱性まわりの対応など、やることはいろいろとあるけれど、1つ1つ深掘りしていきたい。

一方で1人で運用するのは限界があるので自分がボトルネックにならないよう、燃え尽きないようにできる範囲で頑張りたい。インフラの構築まわりも当然に求められるので、開発の遅れにならないよう、なんでも抱え込まないように気をつけたい。

DB知見の深化

運用・監視を行う上で対象の知見が一番不足しているのがDBであり DBの知見を特に深めていきたい。 DBとしてはRDBMSにMySQL、NoSQLにRedisとMongoDBを利用しているのでどれも欠けることなく知見を蓄積していく必要がある。

MySQLはパフォーマンスの問題が発生しているので SQLを中心としたパフォーマンスチューニングできるように知見を蓄積したい。 Redisはシステムがレガシー化しつつあるので、最新バージョンへの追従に向けた知見を蓄積したい。 MongoDBは機械学習などで活用が見えているので、新しいシステムを構築するために必要な知見や、機械学習とどのように使っていくか、知見を深めていきたい。

スケーラブルなインフラ

ユーザビリティの向上やコスト最適化に向けてスケーラブルなインフラを実現したい。オートスケールはECSまわりの新しいシステムでしか実現できていないので、既存のシステムにおけるオートスケールも実現したい。

これを実現するためにはメインのwebアプリもコンテナ化したり、そもそもオートスケールを実現するために監視の仕組みを構築しないといけない。これが単にリソースの利用状況を見るだけでなく、アプリの仕様を踏まえた監視の仕組みを作り込む必要がある。 redisまわりの仕組みもきちんと理解する必要があるので監視やDBの知見深化と合わせて取り組んでいく。

CI/CDの強化

CI/CDは転職前は自分の好きな技術領域としていろいろ取り組んでいたはずが現職ではなぜか技術を発揮することなく放置されている残念なところとなっている。特にCDまわりの仕組みは自社の弱いところなので、このあたりを整備していきたい。

メインで利用しているCircleCIに加え、利用を開始したGitHub Actionsや今後利用を想定するCodeBuildといった各種CIサービスについての知見を蓄積することも必要。それ以上にCIを上手く活用するために各種静的解析の導入やCIの高速化、およびCDとしてのリリースの高度化のための知識を取り入れていきたい。インフラのCIなんかもできていないのでやりたいところ。

マネジメント

OKRや1on1およびアジャイルなど仕組みについては広く公開されているものの、組織によって適切なやり方が異なるものについてどうすればの適切な方法になるか取組みを模索していく必要がある。特にリードエンジニアの立場として、自分の作業を効率化するだけでなく組織自体の強化と組織全体の効率化ができるよう若手を引っ張って・盛り上げていきたい。

正直なところ、ピープルマネジメントは苦手な分野ではあるけれどそういった苦手な面も積極的に取組みたい。

フロントエンド技術入門

ここまで挙げてきたテーマは自分の得意分野を伸ばす取組みだけど苦手な分野の強化としてフロントエンドまわりの基礎を身に付けたい。自社で採用しているVue.jsの知見を深めるのはもちろん、 TypeScriptやNext.jsのような新しい技術についても、少なくとも世の中の流れが把握できる程度には理解を深めていきたい。

また、VRにおけるフロントエンドは面白い分野だと思うので自分が新しい取組みを行うまではいかなくても、会社の取組みに取り残されないようにしたい。

2020-11-01

Terraform Cloudをterraformで管理する

terraform IaC

Terraform CloudにおけるWorkspaceの管理

Terraform Cloudはtfstateの管理だけでなくterraformの実行を管理してくれる．このため，自前でTerraformのCI環境を構築する必要なしに簡単にTerraformを導入できる．

一方で，tfstateの分割単位であるworkspaceが増えるとその管理が大変になる．具体的にはworkspace間で共通の変数(AWSのクレデンシャル情報など)の管理などが煩雑である． CircleCIのコンテキストやGitHub ActionsのOrganization Secretsのように組織内で共通して変数を参照する仕組みがないので， workspaceごと変数を設定する必要がある．このため，AWSのクレデンシャル情報をローテートするときには， workspaceの数だけ人手で更新する必要があり，かなり面倒である．

Terraform Cloud 管理の自動化

人手で管理するのは面倒なので自動化したい． Terraform CloudにはAPIが提供されており，HashiCorpが公式にメンテするSDKとして go-tfeがある．このSDKやAPIを用いたCLIも多数存在する．

workspaceの変数管理という単目的であれば上記のCLIを利用すれば済む話ではあるが，変数管理だけでなく通知の設定や利用するTerraformのバージョンなども管理したくなる．まさに，Terraform Cloudの IaCがやりたい．

こうなるとCLIで操作するだけでは不十分となり， Terraform CloudをTerraformで管理したくなる．

Terraform CloudをTerraformで管理する

Terraform CloudはTerraform Enterpriseのマネージドサービスであり， Terraform Enterprise Providerが利用できる．これを利用してTerraform Cloud上のリソースをTerraformで管理する．

主な注意事項は以下の通り．

認証トークンの設定

Terraform Enterprise Providerにおける認証トークンとしては，ユーザートークンなどが利用できるが，今回のように複数workspaceを管理するためにはチームAPIトークンの利用がよさそう．ユーザートークンや組織トークンとはアクセスレベルが大きく異なるので目的に応じて検討が必要．

チームトークンはOrganization SettingsのTeamsから発行できる．

f:id:thaim:20201025170239p:plain — チームトークンの発行

発行したトークンは tfeプロバイダに設定する．

provider "tfe" {
  token = var.token
}

variable "token" {}

リソースのインポート

多くの場合 workspaceのリソースなどは既に作成されていると思うので，これをterraform管理下におくためにインポートする． WorkspaceのインポートにはIDを指定する． IDはWorkspaceのGeneral Settingsから確認できる．

Terraform Cloudでリソースのインポートを行う場合，特にRemote Execution Modeを利用している場合でもインポートの処理はローカルで動作する点に注意．すなわち，Terraform変数や環境変数はローカルでも設定しておく必要がある．

WorkspaceのVCS設定

WorkspaceのVCS連携を利用することでリポジトリを契機としたTerraformの実行や，プルリク画面でのplan結果の表示などができるようになる．このVCS連携は複数の選択肢があり，通常はあまり気にすることがないものの， Terraform管理しようとすると考慮する必要がある．結論から言うと personal access token を利用する方法のみが上手くいく．

多くの人が利用するであろうGitHub.comとの連携については Configuration-Free GitHubがある．これは Terraform Cloud GitHub App を利用する方法で，細かい認証の設定なしにGitHub.comとTerraform Cloudを連携できる．この方法は通常Terraform Cloudを利用する場合の方法である一方で，tfe プロバイダを用いたterraform管理にはこの方法は利用できない．

もう1つの方法として OAuth App を登録する方法がある． OAuth Appを利用すればGitHub Organizationレベルで接続設定を登録できる．一方で，こちらもAPIには対応していないので自動化できない．

ということで，唯一の選択肢が personal access token を利用する方法である． personal access token はAPIに対応しているので今回実現したいTerraform CloudのIaCが実現できる． personal access token で連携させる課題としては，接続設定が個人のアカウントに紐付くことである． botアカウントを利用すれば解決できる？かもしれないが自分では試していないのでわからない． APIがpersonal access token以外にも対応して欲しいというissue は挙がっているのでいずれは解決する？

具体的なコードは以下のような感じ．ちなみにGitLabでもほぼ同じような設定で連携できる．

resource "tfe_workspace" "my_workspace" {
  name = "my-workspace"
  organization = tfe_organization.my_organization.name

  file_triggers_enabled = false
  queue_all_runs = false

  vcs_repo {
    identifier = "thaim/my_workspace"
    ingress_submodules = false
    oauth_token_id = tfe_oauth_client.github.oauth_token_id
  }
}

resource "tfe_oauth_client" "github" {
  organization = tfe_organization.my_organization.name

  api_url = "https://api.github.com"
  http_url = "https://github.com"
  service_provider = "github"
  oauth_token = var.github_personal_access_token
}

resource "tfe_notification_configuration" "slack_my_workspace" {
  name = "slack-my-workspace"
  enabled = true
  workspace_id = tfe_workspace.my_workspace.id

  destination_type = "slack"
  url = var.slack_webhook_url
  triggers = ["run:needs_attention", "run:completed", "run:errored"]
}

変数の管理

Terraform CloudのIacを実現したい動機の1つであった変数の管理について． 1つはVCS設定のような共通設定の管理がある．例えばSlack連携ではwebhook_urlを，リポジトリとの連携ではpersonal access tokenをそれぞれ各リポジトリに設定する必要がある． terraformでTerraform Cloudを管理することで，このworkspaceにおける変数として管理することができる．

例えば上記WorkspaceのVCS設定では， personal access token は変数 var.github_personal_access_token として， Slackのwebhook URLは var.slack_webhook_url として参照している．このため，このTerraform Cloudを管理するworkspaceのvariableとして設定すれば，変更したいときも変数を更新してapplyするだけでよい．

もう1つが各workspaceの環境変数やTerraform変数の設定である．よくある例がAWSのクレデンシャル情報(アクセスキーIDおよびシークレットアクセスキー)で，複数のworkspaceで同じ値を設定したい．

環境変数を設定するTerraformリソースの定義例は以下の通り．これは環境変数の例だがTerraform変数も同様に設定できる．対象となるworkspaceが1つか設定できず，workspaceごとにリソースを定義しないといけないのが若干面倒．

resource "tfe_variable" "aws_access_key_id" {
  workspace_id = tfe_workspace.my_workspace.id

  key = "AWS_ACCESS_KEY"
  value = var.aws_access_key_id
  category = "env"
  sensitive = false
}

resource "tfe_variable" "aws_secret_access_key" {
  workspace_id = tfe_workspace.my_workspace.id

  key = "AWS_SECRET_KEY"
  value = var.aws_secret_access_key
  category = "env"
  sensitive = true
}

2020-07-25

Rails+Vuetify+ActiveAdminでボタンのスタイルが崩れる

Vuetifyにおけるスタイル崩れ

Rails6 + Vue + Vuetify でVuetify入門してた． Vuetifyのレイアウトでいろいろ試してみたところ，ハンバーガーメニューのスタイル崩れが発生した．

style collapsed huberger menu — スタイル崩れが発生したハンバーガーメニュー

Vuetify App Barsのナビゲーションアイコンに意図しないグレーの円が表示されている．また，ハンバーガーメニュー以外にもナビゲーションメニューのうちラベルのEDITボタンなども表示崩れが発生している．

意図しないスタイル反映の解除

スタイル崩れの共通点として，いずれもボタンタグなのでボタンタグに関するCSSがおかしいのだろうということはわかったが，その原因をすぐに見付けることができなかった．

Rails，特にCSSなどのフロントエンドは詳しくない上に Vuetifyもよく理解していなかったので(VuetifyのGetting Startedはあまり親切ではないと思う) その設定等がおかしいのかと思って試行錯誤していた．

結果， app/assets/stylesheets/application.css の反映の有無によりスタイル崩れが生じることがわかった．これは同ディレクトリに active_admin.scss があり， application.cssがこのファイルを読み込んでいるため ActiveAdmin以外のページにもActiveAdminのスタイルが適用されていた．

...
  *
  *= require_tree .
  *= require_self
  */

このため， require_tree . を削除することで解決した．

require_treeの設定

この require_tree . でいろんなスタイルが反映されて表示崩れが発生するのは Railsあるあるな挙動らしい．

app/assets/stylesheets/ にscssファイルを生成すれば (generatorでビューを作成すれば勝手に作成される) 自動的に application.cssが読み込んでくれる．

逆にページごとに異なるCSSを適用したいケースがある場合はこの require_tree . の記述を削除し，共通ファイルは個別に明示的に指定した上で各ページのビューファイル (*．html.erbなど)にてstylesheet_link_tag で個別に読み込むCSSを指定すればよい．

なるほど？

2020-06-21

GitHub Secretsの更新をgithub-secrets-writerで自動化する

CICD

GitHub Actionsでクレデンシャル情報を利用するためにGitHub Secretsを利用しているわけだけど，この値の設定や更新を自動化したい．

具体的には AWS_ACCESS_KEY_ID と AWS_SECRET_ACCESS_KEY の更新を自動化したい．また，現状は単一のbotユーザの権限で，複数リポジトリに同じアクセスキーを設定しているのでアクセスキーを更新したら複数リポジトリをまとめて更新したい．

リポジトリが少ないうちは手動対応でもよかったけれどリポジトリ数が増えるにつれて設定忘れや更新もれが発生しそうなこと，そもそも面倒なので自動化する．

自動更新の仕組み

おおまかな手順としては以下の通り

アクセスキーを更新してダウンロード
cliツールを利用して特定リポジトリのsecretsを更新
すべてのリポジトリに対して 2 を繰り返す

cliによるsecretesの更新

secretsの更新に githubの公式クライアントツールの cli を利用したい．ところが，cliはsecretsの更新APIには対応しておらず，要望は上がっているがまだすぐに実装されそうというものではない．

その代替としては， github-secrets-writer というのがあるのでこれを利用する．その名前の通り，github secretsの更新に特化したcliツールである．

github-secrets-writerを利用する

手順としてはREADMEにある通り．

GITHUB_TOKENはGitHub公式ヘルプなどを参考に作成する．権限について，パブリックリポジトリのsecretesのみを更新するのであれば public_repo だけで，プライベートリポジトリのsecretsも更新するのであれば repo のフルコントロールが必要になる．

あとは更新するリポジトリとsecrets名および値を指定して実行するだけ． key=value 形式で設定値が記載されているファイルがあれば --from-file で簡単に指定できるが，残念ながらAWSアクセスキーはcsv形式なので--from-fileで簡単に利用できる形式ではないので諦めて --from-literal で直接指定して実行する．

出力が少しわかりにくく， secretName1: 204 No Content のように表示されていれば上手く更新されている．新しくsecretsの項目を作った場合は secretName1: 201 Created のようになる．一方で，権限不足等であれば以下のように表示される．

secretname3: GET https://api.github.com/repos/thaim/samplerepo/actions/secrets/public-key: 404 Not Found []
ERROR: encountered some failures, see above

github-secrets-writerによる自動更新を自動化する

アクセスキーの更新は90日で更新してねという推奨があるので，アクセスキーの発行や上記cliの操作自体も自動化したい．

アクセスキーを発行するAPI自体は存在するので lambdaでアクセスキーを発行してそのままsecretsを更新するような処理を実装して CloudWatchで定期的に呼び出してあげればよい．

が，そこそこ面倒なので止めた．まずは手元で自動化できればよさそう．

Organizationレベルで共通のSecrets

ここまで手順を整理したところで， GitHubが最近 SecretsをOrganizations レベルで共有できる Organizations Secretsを発表していることに気が付いた．

これを設定・利用すればそもそも，リポジトリ毎のSecretsを更新してまわるなんて不要になる．

2020-05-30

wheneverのカスタムjob_typeで月末バッチを実現する

Ruby Linux

cronジョブをRubyで書くためのgem wheneverで月末バッチを実現するためのカスタムスクリプトを実装したい．このとき，wheneverのカスタムjob_typeで実現したのでそのまとめ．

月末バッチの実装

cronで月末バッチをスケジュールする場合，月末の判定が面倒．月末となる日は30日や31日，もしくは28日や29日(2月のうるう年)のような条件があるので，日付を決め打ちにすることができない． cron書式とは別に月末判定を実施して処理する仕組みが必要である．

よくある実装としてはcronで呼び出されるスクリプトの冒頭で，翌日が1日か判定して1日でなければ処理を終了する方法である．例えば以下のような方法で翌日の日付を判定することで月末かを確認できる．

if [ `date - d tomorrow "+%d"` == "01" ]; then
  run_batch.sh
fi

cronだったら一行で実現したいので以下みたいになる

0 0 * * * "[ `date - d tomorrow \"+\%d\"` == \"01\" ] && run_batch.sh"

cronにおける注意点として，ダブルクオテーションに対するエスケープはもちろん， % に対するエスケープ処理が必要な点にある．詳細はman 5 crontab を参照．

wheneverにおける実装

ではRubyでcron書式を実装する wheneverではどのように実装するか． wheneverでは以下のように記載する．

every '0 0 27-31 * *' do
  rake "app_server:task"
end

これを bundle exec whenever でcron書式に変換すると以下のように変換される．

0 0 27-31 * * /bin/bash -l -c 'cd /home/thaim/work && RAILS_ENV=production bundle exec rake app_server:task --silent'

これは wheneverの仕組みによるもので，パスの変更やRAILS_ENVの指定などをユーザが考慮する必要がなくなる．一方で，今回のような月末判定ロジックを組込むにはwheneverの仕組みと重複するので難しい．

対策として，独自の変換ロジックとして job_typeをカスタマイズする方法である．上記 wheneverのrakeはwheneverが実装するjob_typeによる変換方式が適用されたものである．これを月末判定ありのjob_typeを定義してあげればよい．例えば以下のような rake_lastday job_typeを定義する．

job_type :rake_lastday, "[ `date -d tomorrow \"+%d\"` == \"01\" ] && cd :path && :environment_variable=:environment bundle exec rake :task --silent :output"

これを利用すると月末判定付きのcronが生成されるようになる．

every '0 0 27-31 * *' do
  rake_lastday "app_server:task"
end

という記述が以下のように変換される

0 0 27-31 * * /bin/bash -l -c ''[ `date -d tomorrow "+\%d"` == "01" ] && cd /home/thaim/work && RAILS_ENV=production bundle exec rake app_server:task --silent'

補足: 拡張書式としてのL

ちなみに，cron書式にて日付に 'Ｌ’ を使えば月末日を自動で判定してくれるよ，みたいな記事がStackOverflowとか英語Wikipediaに記載がある．ただし，これは一般的なcronでは実装されていない，独自方言であり基本的には使えない．

例えば JavaのジョブスケジューラライブラリQuartzなんかには拡張書式として月末日のLがサポートされている．ただし，一般的なcronでは扱われているような書式ではないのでこの書式がサポートされていることを期待しない方がよさそう．

2020-05-28

Terraformでリソースをインポートしたり削除したり

TerraformでTerraform管理外の既存のリソースを管理下に入れる方法と外す方法．管理下に入れるコマンドが import なら管理から外すのは export だろ，と思ったけどそんなコマンドはなかった．

リソースをインポートする

まずはインポートする方法から． Terraform importコマンドを利用することでリソースをTerraformの管理下に置く．

実行コマンドは terraform import [options] ADDRESS ID の書式の通り． ADDRESSは Resource Adressingにある通りで， tfファイルでリソースを指定するときに利用する書式． aws_s3_bucket.my_bucket_name とかそういうやつ．

IDはTerraformのドキュメントに記載されたIDで，リソースドキュメントの最後に記載されている．例えばS3ならS3 bucketリソースに記載の通りバケット名． EC2インスタンスならインスタンスリソースに記載の通りインスタンスID．

このIDがリソースによってフォーマットが大きく異なり，基本的には上記の通りリソース名だが， SQSのようにIDがURLだと https://queue.amazonaws.com/80398EXAMPLE/MyQueue のように記載したり， ECSタスク定義のようにIDが存在しないとARNとして arn:aws:ecs:us-east-1:012345678910:task-definition/mytaskfamily:123 のように記載したりとたまに例外があるので注意が必要．

$ AWS_DEFAULT_REGION=ap-northeast-1 terraform import aws_s3_bucket.sample sample-bucket-name
aws_s3_bucket.sample: Importing from ID "sample-bucket-name"...
aws_s3_bucket.sample: Import prepared!
  Prepared aws_s3_bucket for import
  Prepared aws_s3_bucket_policy for import
aws_s3_bucket_policy.sample: Refreshing state... [id=sample-bucket-name]
aws_s3_bucket.sample: Refreshing state... [id=sample-bucket-name]

Import successful!

The resources that were imported are shown above. These resources are now in
your Terraform state and will henceforth be managed by Terraform.

リソースを除外する

importを取り消したいときなどの逆操作について．この操作がないと既存リソースを一度削除する必要が出てくるのでリソースを除外するコマンドがないわけないだろうと思ったが Terraform Command一覧を見てもそれらしいものが無いので困っていた．

結論としては terraform state rm サブコマンドが目的の Terraformの管理下から除外するコマンドだった．サブコマンドが存在するのは terraform state コマンドと terraform workspace コマンドだけで，これに注意する必要があった．

実行コマンドは terraform state rm [options] ADDRESS... の書式通り．

$ AWS_DEFAULT_REGION=ap-northeast-1 terraform state rm aws_s3_bucket.sample
Removed aws_s3_bucket.sample
Successfully removed 1 resource instance(s).

Terraform backendがTerraform Cloudのような外部管理であってもリソースの追加/削除は可能なのでいろんなところで利用することになりそう．

そして再度確認したら，きちんと実践Terraformに記載されていた．あらためて見ると24章のリファクタリングは重要な操作なので再確認が必要．

実践Terraform　AWSにおけるシステム設計とベストプラクティス (技術の泉シリーズ（NextPublishing）)

作者:野村友規
発売日: 2019/09/20
メディア: オンデマンド (ペーパーバック)