今日もプログラミング

IT技術とかプログラミングのこととか特にJavaを中心に書いていきます

2015-04-01から1ヶ月間の記事一覧

EmbulkのCSV parserのスキーマをDBメタ情報により定義する

DBメタ情報からCSVの列を定義したい EmbulkでCSV parserを使うときは、ymlファイルに列の定義を書く必要がある。 Embulkにはguessという便利な機能があって、CSVファイルから列の定義を出力することもできる。 だけどCSVファイルをDBにロードする場合は、ロ…

Embulkの設定ファイルでエイリアスを使う

Embulkの設定ファイルを書いていると、同じ値が繰り返し現れることがある。 例えば、CSVをTSVに変換する設定ファイルを書いてみると、 in: type: file path_prefix: 'data/test.csv' parser: type: csv charset: SJIS delimiter: "," header_line: false col…

Oracleでembulk-input-jdbcを試してみた

※2016/6/23: この記事は古いので、 こちらをご参照ください。 embulk-output-oracleもだいぶ良くなってきたので、そろそろinputの方も試してみたい。 どうやらembulk-input-oracleは無いようなので、汎用的なembulk-input-jdbcを使ってみることにした。 準備…

embulk-output-oracleのパフォーマンスを計測してみた

embulk-output-oracleとは? embulk-output-oracleについては何度か書いているが、一応概要を。 embulkは、オープンソースのバルクデータ転送ツールで、プラグインにより様々な入出力に対応することができる。 embulk-output-oracleも出力プラグインの1つで…

Hadoopでプロキシ経由でAmazon S3にアクセスする

Hadoopと言うか、HadoopのFileSystemクラスを利用してS3にアクセスしたいのである。 AWS SDKがあるのに、なんで?かと言うと、FileSystemを使うとローカルファイルとかHDFSとかと同じインターフェイスでアクセスできるので、汎用的なツールを作るのに便利だ…

Embulkのエラー処理について調べてみる

自分はEmbulkを業務システムに組み込むことを考えている。 となると、気になるのはエラー処理。 エラー時にどんな挙動になるかを確認しておきたい。 Embulkのプラグインの組み合わせは多数あるが、とりあえず想定しているのはCSVファイルを読み込んでRDB(例…

embulk-output-oracleを高速化したので使い方についてまとめる

embulk-output-oracleを劇的に高速化した0.2.2がリリースされたので、使い方について書いてみる。 どのくらい速くなったかは改めてまとめる予定だけど、これに沿った感じになると思う。 3つの挿入モード READMEにも書いたけど、embulk-output-oracleには nor…

JDBCからストアドプロシージャを呼び出す(Oracle、SQL Server、MySQL)

RDBMSの差異を吸収してくれるのがJDBC…、のはずが、なかなかそううまくはいかない。。 ストアドプロシージャの呼び出しも、RDMBSによって細かな違いがあるようだ。 MySQLのストアドプロシージャを呼び出す まず、テスト用のストアドプロシージャを準備する。…