今日もプログラミング

IT技術とかプログラミングのこととか特にJavaを中心に書いていきます

Embulk

embulk-output-sqlserverのパフォーマンスを計測したら結構速かった

embulk-output-sqlserverとは embulkとは、オープンソースのバルクデータ転送ツールである。 そして、embulk-output-sqlserverとは、embulkのプラグインの1つで、SQL Serverにデータをロードするためのものである。 これを使うと、CSVファイルとか他のデータ…

embulk-output-oracleのパフォーマンスを向上する!

背景 ここでも書いたが、embulk-output-oracleを業務システムで使うには、もう少し速くしたい。 そこで、embulk-output-oracleのパフォーマンスを向上することにした! embulk-output-oracleの現状のパフォーマンス まずは、現状(embulk 0.8.12 + embulk-ou…

Embulkを業務システムで使った話

背景 自分はSIerのエンジニアである。 いろいろなお客様の、いろいろな業務システムと格闘するのがお仕事である。 また、今はembulk-input-jdbcとかembulk-output-jdbcのコミッタもやっている。 業務システムとRDBとテキストファイル 業務システムでは、たい…

パフォーマンスとメンテナンス性で揺れるembulk-output-oracle

embulk-output-oracle embulkとはバルクでのデータ転送ツールだ。 embulk-output-oracleはそのプラグインの1つで、Oracleにデータをロードするためのものだ。 OCIの利用 OCIとは、Oracle Call Interfaceのことで、要するにOracleのネイティブライブラリAPIだ…

データベースのタイムゾーン付型について調べてみた

embulk-input-jdbcでこんな問題が上がっていたので、データベースのタイムゾーン付の型について調べてみた。 MySQL (5.6) ドキュメントを見ると、TIMESTAMP型はタイムゾーンに対応しているらしい。 DB内ではUTC、クライアント側ではtime_zoneシステム変数で…

Embulkの環境を丸ごとコピーする

Embulkでプラグインをインストールすると、実行ユーザのホームディレクトリの下に.embulkディレクトリができて、gemがインストールされる。 別の環境でも同じようにEmbulkを動かすには、Javaをインストールして、Embulkの実行ファイルをコピーして、ホームデ…

EmbulkでCSVからDBにロードするときのエラーについて調べてみた

以前、Embulkのエラー処理について調べてみるというタイトルで記事を書いたが、あれからずいぶんとバージョンが上がっているので、再度確認してみることにした。 CSVの項目が多過ぎる場合 以下のような警告が出て、スキップされた。 2015-12-11 16:02:29.364…

embulk-output-redshiftのパフォーマンスを計測してみた

embulk-output-redshiftを使えばテキストファイルを簡単にAmazon Redshiftにインポートできる。 だが、やはり気になるのはパフォーマンスだ。 という訳で、embulk-output-redshiftのパフォーマンスを計測してみた。 計測環境 AWSのリージョンはTokyoを使用し…

embulk-input-jdbc 0.5.0では型を指定できるようになった

以前embulk-input-jdbcをOracleで試したときは、いろいろと問題があった。 整数なのに小数点以下が出力される 大きな数値が指数表記で出力される DATE型なのに時分秒が出力される TIMESTAMPの秒未満が出力されない しかし、embulk-input-jdbc 0.5.0 (および …

embulk-output-redshiftのタイムゾーンについて

embulk-output-redshiftでタイムゾーンがどう扱われるかを確認してみた。 Redshift側のタイムゾーン UTC固定らしい。 検証の準備 テーブル create table test1 ( id char(4), varchar_item varchar(20), integer_item int, numeric_item numeric(10,2), date…

embulk-output-jdbcの型についてまとめた

embulk-output-jdbcではいろいろな型が出てくる。 ややこしいので、現在の実装に基づいてまとめてみた。 embulk-output-jdbcに出てくる型の種類 入力の型 column_optionsのvalue_type column_optionsのtype 出力先テーブルの列の型 入力の型 embulk内部の型…

EmbulkでRedshiftにデータをロードしてみる

今回は、EmbulkでRedshiftにデータをロードするのを試してみたい。 マシンの準備 まずはRedshiftのインスタンスを準備する。 とりあえずは動作確認なので、一番安いdw2.largeにした。 うちの社内からデータをロードしようとすると、ユーザ認証が必要なプロキ…

EmbulkのCSV parserのスキーマをDBメタ情報により定義する

DBメタ情報からCSVの列を定義したい EmbulkでCSV parserを使うときは、ymlファイルに列の定義を書く必要がある。 Embulkにはguessという便利な機能があって、CSVファイルから列の定義を出力することもできる。 だけどCSVファイルをDBにロードする場合は、ロ…

Embulkの設定ファイルでエイリアスを使う

Embulkの設定ファイルを書いていると、同じ値が繰り返し現れることがある。 例えば、CSVをTSVに変換する設定ファイルを書いてみると、 in: type: file path_prefix: 'data/test.csv' parser: type: csv charset: SJIS delimiter: "," header_line: false col…

Oracleでembulk-input-jdbcを試してみた

※2016/6/23: この記事は古いので、 こちらをご参照ください。 embulk-output-oracleもだいぶ良くなってきたので、そろそろinputの方も試してみたい。 どうやらembulk-input-oracleは無いようなので、汎用的なembulk-input-jdbcを使ってみることにした。 準備…

embulk-output-oracleのパフォーマンスを計測してみた

embulk-output-oracleとは? embulk-output-oracleについては何度か書いているが、一応概要を。 embulkは、オープンソースのバルクデータ転送ツールで、プラグインにより様々な入出力に対応することができる。 embulk-output-oracleも出力プラグインの1つで…

Embulkのエラー処理について調べてみる

自分はEmbulkを業務システムに組み込むことを考えている。 となると、気になるのはエラー処理。 エラー時にどんな挙動になるかを確認しておきたい。 Embulkのプラグインの組み合わせは多数あるが、とりあえず想定しているのはCSVファイルを読み込んでRDB(例…

embulk-output-oracleを高速化したので使い方についてまとめる

embulk-output-oracleを劇的に高速化した0.2.2がリリースされたので、使い方について書いてみる。 どのくらい速くなったかは改めてまとめる予定だけど、これに沿った感じになると思う。 3つの挿入モード READMEにも書いたけど、embulk-output-oracleには nor…

embulk-output-oracle(0.2.1)の仕様について

embulk-output-oracleが一応公開されたが、とりあえず動く、というレベルのもので、まだ完成度は低い。 とは言え、現状の仕様についてまとめてみる。 Oracleのバージョン 12c(Windows)で検証したが、たぶん他のでも動くと思う。 driver_path ymlファイル中の…

ファイルを分割して入力するEmbulkプラグインを作ってみた

Embulkの並列処理 Embulkは、処理を複数のタスクに分割して並列に実行する仕組みを備えている。 しかし、標準のファイル入力プラグインでは、単純に1つのファイルを入力すると1タスクにしかならないようだ(こちら参照)。 ソースを読んでみると、複数ファイ…

Embulkプラグインのテストを楽にやりたい

EmbulkではJavaやRubyでプラグインを開発することができる。 自分は今のところJavaで開発しているので、それについて書いてみたい。 どうやってプラグインをテストする? EmbulkのプラグインはRubyのgemとして配布される。 そして、embulk gem install ~ で…

EmbulkでMySQLに4GB突っ込んで測ってみた

Embulkを使えば、いろいろなデータを簡単にDBに突っ込めるはず。 でも、パフォーマンスが気になるよね。 という訳で、Embulkのパフォーマンスを測ってみることにした。 環境の準備 自分のマシンでパフォーマンステストをすると他のことができなくなってしま…

embulk-output-mysqlのソースを読んでみる

MySQLはWebサービスでは広く使われていると思うけど、業務システムではOracleやSQL Serverも多く使われている。 しかし、今のところOracleやSQL Server用のプラグインは無いようだ。 自作するとしたらきっとMySQL用のプラグインが参考になるはずだ。 という…

EmbulkをWindowsで正しく起動する

embulk.batで起動する 前回は、Embulkを java -jar embulk.jar <command> ... で起動していたが、実はこれは正式な起動方法ではない。 embulk.jarをembulk.batにリネームし、 embulk <command> ... で、すっきりと起動できるのだ! 但し、0.4.8まではembulk.bat <command> ...でないと起</command></command></command>…

EmbulkでMySQLに出力してみる

Embulkでexampleとembulk-plugin-input-randomまで試したので、いよいよMySQLへの出力を試してみる。 ちなみに、実行環境はWindows。 embulk-output-mysqlプラグインのインストール MySQLへの出力は、embulk-output-mysqlプラグインが利用できる。 java -jar…

Embulkをさわり始めてみた

最近リリースされた、オープンソースのバルクローダEmbulk。 業務システムでもテキストファイルをRDBにロードすることはよくあるので、使えるかもしれないと思い、さわりはじめた。 Quick Startを試した後、くまメモを参考にさせてもらい動かしてみる。成功…