今日もプログラミング

IT技術とかプログラミングのこととか特にJavaを中心に書いていきます

jnr-ffiでJavaからCを呼び出すときに構造体を扱いたい

構造体ポインタを引数にとるCの関数をJavaから呼び出したい 以前、jnr-ffiを使ってJavaからCのライブラリを呼び出してみた。 jnr-ffiでJavaからCを呼び出す (Windows) このときは、intとかStringなどの基本的な型しか使っていなかったが、構造体の場合はどう…

embulk-output-sqlserverのパフォーマンスを計測したら結構速かった

embulk-output-sqlserverとは embulkとは、オープンソースのバルクデータ転送ツールである。 そして、embulk-output-sqlserverとは、embulkのプラグインの1つで、SQL Serverにデータをロードするためのものである。 これを使うと、CSVファイルとか他のデータ…

embulk-output-oracleのパフォーマンスを向上する!

背景 ここでも書いたが、embulk-output-oracleを業務システムで使うには、もう少し速くしたい。 そこで、embulk-output-oracleのパフォーマンスを向上することにした! embulk-output-oracleの現状のパフォーマンス まずは、現状(embulk 0.8.12 + embulk-ou…

Embulkを業務システムで使った話

背景 自分はSIerのエンジニアである。 いろいろなお客様の、いろいろな業務システムと格闘するのがお仕事である。 また、今はembulk-input-jdbcとかembulk-output-jdbcのコミッタもやっている。 業務システムとRDBとテキストファイル 業務システムでは、たい…

パフォーマンスとメンテナンス性で揺れるembulk-output-oracle

embulk-output-oracle embulkとはバルクでのデータ転送ツールだ。 embulk-output-oracleはそのプラグインの1つで、Oracleにデータをロードするためのものだ。 OCIの利用 OCIとは、Oracle Call Interfaceのことで、要するにOracleのネイティブライブラリAPIだ…

データベースの列名で大文字と小文字は区別される?

データベースのテーブル名で大文字と小文字は区別される? と同じ結果になると思われるが、一応確認してみた。 Oracle SQL> create table case_column_test (c1 char(2), C1 char(2)); create table case_column_test (c1 char(2), C1 char(2)) * 行1でエラ…

データベースのテーブル名は大文字と小文字のどちらで管理される?

以前、「データベースのテーブル名で大文字と小文字は区別される?」という記事を書いたが、もう少し調査を進めてみた。 Oracle SQL> create table "case_test" (id1 char(2)); 表が作成されました。 SQL> select table_name from user_tables; TABLE_NAME -…

データベースのタイムゾーン付型について調べてみた

embulk-input-jdbcでこんな問題が上がっていたので、データベースのタイムゾーン付の型について調べてみた。 MySQL (5.6) ドキュメントを見ると、TIMESTAMP型はタイムゾーンに対応しているらしい。 DB内ではUTC、クライアント側ではtime_zoneシステム変数で…

SQL ServerのNative Clientを使ってバルクロードしてみる

embulk-output-sqlserverをリリースしました 先日、バルクデータローダEmbulkのプラグインとして、SQL Serverにロードするためのembulk-output-sqlserverをリリースした。 しかし、embulk-output-sqlserverは単純にINSERT文でデータをロードするので、たぶん…

Oracle SQL*LoaderのPARTITIONについて

Oracle SQL*Loaderでは、制御ファイルに以下のように書くと、特定のパーティションにロードすることができる。 INSERT INTO SOME_TABLE PARTITION (SOME_PARTITION) VALUES ... 挙動について ドキュメントによると、 「行が指定のパーティションに対応しない…

jnr-ffiでJavaからCのポインタを使う

jnr-ffiは、Javaから簡単にCのライブラリを呼び出せるフレームワークだ。 JNIのような煩雑なコードを書かなくてよいのがメリット。 前に記事を書いたときは、プリミティブ型とかStringしか試さなかったので、今回はそれ以外のポインタを試してみる。 Pointer…

Embulkの環境を丸ごとコピーする

Embulkでプラグインをインストールすると、実行ユーザのホームディレクトリの下に.embulkディレクトリができて、gemがインストールされる。 別の環境でも同じようにEmbulkを動かすには、Javaをインストールして、Embulkの実行ファイルをコピーして、ホームデ…

EmbulkでCSVからDBにロードするときのエラーについて調べてみた

以前、Embulkのエラー処理について調べてみるというタイトルで記事を書いたが、あれからずいぶんとバージョンが上がっているので、再度確認してみることにした。 CSVの項目が多過ぎる場合 以下のような警告が出て、スキップされた。 2015-12-11 16:02:29.364…

MySQLのLOAD_FILEではまった

LOAD_FILEがNULLを返す? MySQLのblob列に画像データを突っ込もうとして、 insert into xxx values( ..., load_file('/data/image.jpg') ); のようなSQLを投げてみたが、どうしてもNULLになってしまう。 ファイルはちゃんとあるのに…、なぜだろう? パス指定…

データベースのテーブル名で大文字と小文字は区別される?

embulk-output-oracleを使っている方から、テーブルがあるのにエラーになってしまう、という問い合わせがあった。 調べてみると、テーブル名は大文字なのに、設定ファイルは小文字で書いてある。 普通にOracleでSQLを書くと大文字/小文字は区別されないが、…

embulk-output-redshiftのパフォーマンスを計測してみた

embulk-output-redshiftを使えばテキストファイルを簡単にAmazon Redshiftにインポートできる。 だが、やはり気になるのはパフォーマンスだ。 という訳で、embulk-output-redshiftのパフォーマンスを計測してみた。 計測環境 AWSのリージョンはTokyoを使用し…

jnr-ffiでJavaからCを呼び出す (Windows)

jnr-ffiとは? JavaからCを呼び出す、と言えばJNIだが、C側にJNI固有の処理を書いたりするので結構めんどい。 jnr-ffiというフレームワークを使うと、C側の関数をそのままJavaにマッピングして呼べるらしい。 具体的には、C側に int length(char *s) のよう…

embulk-input-jdbc 0.5.0では型を指定できるようになった

以前embulk-input-jdbcをOracleで試したときは、いろいろと問題があった。 整数なのに小数点以下が出力される 大きな数値が指数表記で出力される DATE型なのに時分秒が出力される TIMESTAMPの秒未満が出力されない しかし、embulk-input-jdbc 0.5.0 (および …

embulk-output-redshiftのタイムゾーンについて

embulk-output-redshiftでタイムゾーンがどう扱われるかを確認してみた。 Redshift側のタイムゾーン UTC固定らしい。 検証の準備 テーブル create table test1 ( id char(4), varchar_item varchar(20), integer_item int, numeric_item numeric(10,2), date…

embulk-output-jdbcの型についてまとめた

embulk-output-jdbcではいろいろな型が出てくる。 ややこしいので、現在の実装に基づいてまとめてみた。 embulk-output-jdbcに出てくる型の種類 入力の型 column_optionsのvalue_type column_optionsのtype 出力先テーブルの列の型 入力の型 embulk内部の型…

EmbulkでRedshiftにデータをロードしてみる

今回は、EmbulkでRedshiftにデータをロードするのを試してみたい。 マシンの準備 まずはRedshiftのインスタンスを準備する。 とりあえずは動作確認なので、一番安いdw2.largeにした。 うちの社内からデータをロードしようとすると、ユーザ認証が必要なプロキ…

POIでコネクタを描いてみる

POI

POIでコネクタは描けるのか? SIerはExcelが大好きなので、設計書もExcelで作ることが多い(いいか悪いかは置いといて…)。 でも手で全部書くのは面倒なので、Javaのソースから自動生成できると便利だなー、とか思うことがある。 設計書には、オートシェイプ…

EmbulkのCSV parserのスキーマをDBメタ情報により定義する

DBメタ情報からCSVの列を定義したい EmbulkでCSV parserを使うときは、ymlファイルに列の定義を書く必要がある。 Embulkにはguessという便利な機能があって、CSVファイルから列の定義を出力することもできる。 だけどCSVファイルをDBにロードする場合は、ロ…

Embulkの設定ファイルでエイリアスを使う

Embulkの設定ファイルを書いていると、同じ値が繰り返し現れることがある。 例えば、CSVをTSVに変換する設定ファイルを書いてみると、 in: type: file path_prefix: 'data/test.csv' parser: type: csv charset: SJIS delimiter: "," header_line: false col…

Oracleでembulk-input-jdbcを試してみた

※2016/6/23: この記事は古いので、 こちらをご参照ください。 embulk-output-oracleもだいぶ良くなってきたので、そろそろinputの方も試してみたい。 どうやらembulk-input-oracleは無いようなので、汎用的なembulk-input-jdbcを使ってみることにした。 準備…

embulk-output-oracleのパフォーマンスを計測してみた

embulk-output-oracleとは? embulk-output-oracleについては何度か書いているが、一応概要を。 embulkは、オープンソースのバルクデータ転送ツールで、プラグインにより様々な入出力に対応することができる。 embulk-output-oracleも出力プラグインの1つで…

Hadoopでプロキシ経由でAmazon S3にアクセスする

Hadoopと言うか、HadoopのFileSystemクラスを利用してS3にアクセスしたいのである。 AWS SDKがあるのに、なんで?かと言うと、FileSystemを使うとローカルファイルとかHDFSとかと同じインターフェイスでアクセスできるので、汎用的なツールを作るのに便利だ…

Embulkのエラー処理について調べてみる

自分はEmbulkを業務システムに組み込むことを考えている。 となると、気になるのはエラー処理。 エラー時にどんな挙動になるかを確認しておきたい。 Embulkのプラグインの組み合わせは多数あるが、とりあえず想定しているのはCSVファイルを読み込んでRDB(例…

embulk-output-oracleを高速化したので使い方についてまとめる

embulk-output-oracleを劇的に高速化した0.2.2がリリースされたので、使い方について書いてみる。 どのくらい速くなったかは改めてまとめる予定だけど、これに沿った感じになると思う。 3つの挿入モード READMEにも書いたけど、embulk-output-oracleには nor…

JDBCからストアドプロシージャを呼び出す(Oracle、SQL Server、MySQL)

RDBMSの差異を吸収してくれるのがJDBC…、のはずが、なかなかそううまくはいかない。。 ストアドプロシージャの呼び出しも、RDMBSによって細かな違いがあるようだ。 MySQLのストアドプロシージャを呼び出す まず、テスト用のストアドプロシージャを準備する。…