2015-04-01から1ヶ月間の記事一覧
DBメタ情報からCSVの列を定義したい EmbulkでCSV parserを使うときは、ymlファイルに列の定義を書く必要がある。 Embulkにはguessという便利な機能があって、CSVファイルから列の定義を出力することもできる。 だけどCSVファイルをDBにロードする場合は、ロ…
Embulkの設定ファイルを書いていると、同じ値が繰り返し現れることがある。 例えば、CSVをTSVに変換する設定ファイルを書いてみると、 in: type: file path_prefix: 'data/test.csv' parser: type: csv charset: SJIS delimiter: "," header_line: false col…
※2016/6/23: この記事は古いので、 こちらをご参照ください。 embulk-output-oracleもだいぶ良くなってきたので、そろそろinputの方も試してみたい。 どうやらembulk-input-oracleは無いようなので、汎用的なembulk-input-jdbcを使ってみることにした。 準備…
embulk-output-oracleとは? embulk-output-oracleについては何度か書いているが、一応概要を。 embulkは、オープンソースのバルクデータ転送ツールで、プラグインにより様々な入出力に対応することができる。 embulk-output-oracleも出力プラグインの1つで…
Hadoopと言うか、HadoopのFileSystemクラスを利用してS3にアクセスしたいのである。 AWS SDKがあるのに、なんで?かと言うと、FileSystemを使うとローカルファイルとかHDFSとかと同じインターフェイスでアクセスできるので、汎用的なツールを作るのに便利だ…
自分はEmbulkを業務システムに組み込むことを考えている。 となると、気になるのはエラー処理。 エラー時にどんな挙動になるかを確認しておきたい。 Embulkのプラグインの組み合わせは多数あるが、とりあえず想定しているのはCSVファイルを読み込んでRDB(例…
embulk-output-oracleを劇的に高速化した0.2.2がリリースされたので、使い方について書いてみる。 どのくらい速くなったかは改めてまとめる予定だけど、これに沿った感じになると思う。 3つの挿入モード READMEにも書いたけど、embulk-output-oracleには nor…
RDBMSの差異を吸収してくれるのがJDBC…、のはずが、なかなかそううまくはいかない。。 ストアドプロシージャの呼び出しも、RDMBSによって細かな違いがあるようだ。 MySQLのストアドプロシージャを呼び出す まず、テスト用のストアドプロシージャを準備する。…