Kategorien
Datenbanken

Duplikate aus einer PostgreSQL-Datenbank sicher entfernen

Klei­ne Notiz, auch für mich selbst. Wer aus einer Post­greS­QL-Daten­bank mal flott alle Dupli­ka­te löschen möch­te, kann wie folgt vor­ge­hen:

DELETEFROM    tabellennameWHERE   feldmituniquekey NOT IN  (SELECT   MAX(dup.feldmituniquekey)  FROM      tabellenname As dup  GROUP BY  dup.doppeltezeile1, dup.doppeltezeile2, dup.doppeltezeile3, dup.doppeltezeile4);

Die Anzahl der GROUP-BY-Fel­der kann belie­big erwei­tert wer­den, um das ver­se­hent­li­che Löschen von teil­wei­se iden­ti­schen Daten­sät­zen zu ver­hin­dern.

Kategorien
Linux Uncategorized

Drei PPAs für den modernen Mann

Um die Vor­tei­le eines LTS-Release von Ubun­tu (aktu­ell 10.04.2) wei­ter­hin genie­ßen zu kön­nen, ohne auf aktu­el­le Soft­ware ver­zich­ten zu müs­sen, gibt es unter Ubun­tu die so genann­ten PPAs, Per­so­nal Packa­ge Archi­ves. Das sind sepa­ra­te Repo­si­to­rys, mit denen man sein Ubun­tu füt­tern kann um Pake­te über die Paket­ver­wal­tung zu instal­lie­ren, die aus irgend­ei­nem Grun­de noch kei­nen Weg in die offi­zi­el­len Repo­si­to­rys der Dis­tri­bu­ti­on gefun­den haben. Cano­ni­cal ver­folgt die Phi­lo­so­phie, inner­halb eines Release kei­ne Ver­si­ons­sprün­ge der ursprüng­lich aus­ge­lie­fer­ten Soft­ware mit­zu­ma­chen. Was sehr scha­de ist, hängt man doch so auf Post­greS­QL 8.4, Git 1.7 und Nginx 0.7 fest. Dank eini­ger fleis­si­ger Paket­schnü­rer gibt es aber PPAs, die genau die­se Pro­ble­me behe­ben. Da ich alle drei zuvor genann­ten Anwendungen/Dienste regel­mä­ßig und auf ver­schie­de­nen Ser­vern nut­ze, habe ich mir dafür ent­spre­chen­de PPAs raus­ge­sucht.

Um PPAs zum Sys­tem hin­zu­zu­fü­gen, bie­tet sich das Kom­man­do add-apt-repository an. Soll­te das Kom­man­do nicht gefun­den wer­den kön­nen, leis­tet fol­gen­der Befehl Abhil­fe:

sudo aptitude install python-software-properties

Die­ses Kom­man­do fügt das Repo­si­to­ry zur Apt-Sources-Lis­te hin­zu und impor­tiert gleich den pas­sen­den GPG-Schlüs­sel.

Fügen wir nun nach­ein­an­der die drei zuvor erwähn­ten PPAs hin­zu:

sudo add-apt-repository ppa:nginx/stablesudo add-apt-repository ppa:git-core/ppasudo add-apt-repository ppa:pitti/postgresql

Ein abschlie­ßen­des sudo aptitude update nicht ver­ges­sen und schon sind die aktu­el­len Ver­sio­nen von Nginx, Git und Post­greS­QL via apt/aptitude ver­füg­bar.

Kategorien
Uncategorized

Heroku: Rails-Anwendungen in der Cloud

Die Cloud, das Buz­z­word des letz­ten Jah­res, ist in aller Mun­de. Und hat auch schon ers­te Federn las­sen müs­sen. Was die Cloud eigent­lich kenn­zeich­net, ist nahe­zu gren­zen­lo­se Ska­lier­bar­keit. Wenn es nach den Befür­wor­tern der Cloud geht, bucht nie­mand mehr phy­si­ka­li­sche Maschi­nen, son­dern Spei­cher­platz, RAM, Rechen­leis­tung in dem Umfang, den er benö­tigt. Wird zwi­schen­zeit­lich mal mehr gebraucht, dreht man kurz an der ent­spre­chen­den Schrau­be und zahlt eben für die Zeit ein wenig mehr. Es gibt unheim­lich vie­le Anbie­ter, gera­de Ama­zon, eigent­lich Inter­net­ein­zel­händ­ler, hat in die­sem Bereich von sich reden gemacht. Ama­zon bie­tet alles denk­ba­re an Cloud-Dienst­leis­tun­gen an, was man sich nur so vor­stel­len kann. Genau das ist dem Wiki­leaks-Pro­jekt zum Ver­häng­nis gewor­den, weil der Anbie­ter somit auch am ein­zi­gen Hebel sitzt. Legt er den um, ist Fei­er­abend. Ama­zon bie­tet zwar eine recht gro­ße Pro­dukt­pa­let­te an, alles abde­cken tun sie dann aber auch nicht.

Wer bei­spiels­wei­se Rails-Anwen­dun­gen in der Cloud lau­fen las­sen möch­te, ist auf ande­re Dienst­leis­ter ange­wie­sen. In den letz­ten Jah­ren hat sich ein Anbie­ter namens Hero­ku einen Namen in der Com­mu­ni­ty gemacht. Erst kürz­lich wur­de Hero­ku von salesforce.com, einem gro­ßen Anbie­ter von Geschäfts­an­wen­dun­gen, für rund 212 Mio. US-$ auf­ge­kauft.

Hero­ku hat ein für den Ent­wick­ler sehr effi­zi­ent zu nut­zen­des und ein­fa­ches Deploy­ment-Ver­fah­ren ent­wi­ckelt, wel­ches kom­plett Git- und Rake-gestützt ist. Der Rails-Ent­wick­ler muss sich also nicht mit der Admi­nis­tra­ti­on und Kon­fi­gu­ra­ti­on von Web­ser­vern her­um­är­gern. Ein Vor­teil gegen­über den klas­si­schen Rails-Hos­tern, von denen es ohne­hin rela­tiv weni­ge gibt ist, dass man nicht auf die vom Hos­ter instal­lier­ten Ruby-Gem-Ver­sio­nen ange­wie­sen ist, son­dern sei­ne eige­nen Ver­sio­nen spe­zi­fi­zie­ren kann, wie man es von sei­ner Ent­wick­lungs­ma­schi­ne her kennt.

Wer rei­ne Rails-3-Anwen­dun­gen deploy­en möch­te, hat sei­ne Anwen­dung bin­nen weni­ger Minu­ten online:

sudo gem install herokugit initheroku creategit add .git commit -a -m 'first deployment commit to Heroku'git push heroku masterheroku rake db:migrateheroku open

Das war es schon. Die Anwen­dung soll­te online sein und sich im Brow­ser geöff­net haben.

Bei Rails-2-Anwen­dun­gen gestal­tet sich das Deploy­ment etwas schwie­ri­ger, aber auch nicht viel. Bevor man die oben erwähn­te Befehls­ket­te anschub­sen kann, muss erst ein­mal eine Datei namens .gems erstellt wer­den. In die­ser müs­sen dann alle erfor­der­li­chen Gems, ggf. inklu­si­ve Ver­si­ons­num­mer notiert wer­den. Bei­spiel:

rails --version 2.3.5i18n --version 0.4.2rack --version 1.0.1

Erst dann darf deploy­ed wer­den. Neben den oben erwähn­ten Mög­lich­kei­ten gibt es aber noch vie­le wei­te­re, die alle­samt auf den wirk­lich tol­len Sup­port- und Doku­men­ta­ti­ons-Sei­ten von Hero­ku doku­men­tiert sind. So kann man, sofern man bereits lokal Post­greS­QL ver­wen­det, sei­nen kom­plet­ten Daten­bank­in­halt mit­tels hero­ku db:push in die Anwen­dung bei Hero­ku pushen. Post­greS­QL ist übri­gens die ein­zi­ge Daten­bank, die von Hero­ku ange­bo­ten wird. Laut Hero­ku des­we­gen, weil sie dort die opti­ma­le Kom­bi­na­ti­on zwi­schen Zuver­läs­sig­keit, Daten­in­te­gri­tät und Geschwin­dig­keit sehen. Ein State­ment, das ich durch­aus unter­schrei­ben kann. Das hero­ku-Gem ist äußerst mäch­tig und bie­tet einem Zugriff auf sämt­li­che instal­lier­ba­re Add-Ons (s.u.), auf die Logs und noch vie­les mehr. Eine Stu­die der Doku­men­ta­ti­on ist emp­feh­lens­wert.

Ab sofort kann dann direkt in den Anwen­dungs­con­tai­ner bei Hero­ku deploy­ed wer­den, indem man ein ganz regu­lä­res Git-Com­mit erstellt. Ein­fa­cher geht es kaum noch.

Nach­dem die ers­te Ver­si­on der Anwen­dung deploy­ed wur­de, kann man sie um eini­ge tol­le, teil­wei­se auch kos­ten­los nutz­ba­re Add-Ons erwei­tern. Dazu gehö­ren nütz­li­che Erwei­te­run­gen wie CNA­ME-Ein­trä­ge für die Anwen­dung (damit man sie auch unter einer eige­nen (Sub-)Domain betrei­ben kann), Jasondb, Mon­goDB und CouchDB für die NoS­QL-Anhän­ger unter uns, Excep­ti­on-Tra­cker, Echt­zeit­su­che, New Relic, SMS-Gate­ways, auto­ma­ti­sier­te Daten­bank­back­ups, etc. Man­che kos­ten gar nichts, man­che nur wenig Geld, ande­re wie­der­um sind recht teu­er (wobei teu­er mal wie­der rela­tiv ist). Dol­le ins Geld geht ein SSL-Zer­ti­fi­kat, da sol­che Zer­ti­fi­ka­te wei­ter­hin IP-basiert sind, was bei einem Cloud-basier­ten Dienst natür­lich recht fins­ter wer­den kann.

Apro­pos Kos­ten: jeder kann bei Hero­ku belie­big vie­le Anwen­dun­gen hos­ten las­sen, die auch erst mal nichts kos­ten, in der Leis­tungs­fä­hig­keit aber arg ein­ge­schränkt sind. Benö­tigt man mehr Res­sour­cen, muss man in die Tasche grei­fen, ab ca. 36 US-$ (0,05 $-Cent pro Stun­de) monat­lich geht es los. Dabei unter­teilt Hero­ku in Dynos und Worker. Dynos beschleu­ni­gen das Front­end, Worker die Hin­ter­grund­pro­zes­se der Rails-Anwen­dung. Der Maxi­mal­aus­bau liegt bei 24 Dynos und 24 Workern, wofür dann aber auch 2,35 US-$ pro Stun­de, oder umge­rech­net rund 1.700 US-$ monat­lich anfal­len. Die Per­for­mance­stu­fe dürf­te aber auch „geho­be­nen“ Ansprü­chen genü­gen.

Damit ist aber noch nicht Schluss, denn eine dedi­zier­te Daten­bank ist bei dem Preis noch nicht inklu­si­ve. Kos­ten­los gibt es 5 MB Shared Data­ba­se, für 20 US-$ monat­lich 20 GB Shared Data­ba­se. Wer gern eine dedi­zier­te Daten­bank hät­te, muss bspw. für den kleins­ten Tarif Ronin 200 US-$ monat­lich berap­pen. Dafür erhält er 16 gleich­zei­ti­ge Ver­bin­dun­gen, 1,7 GB RAM und 1 com­pu­ting unit. Für 6.400 US-$ gibt es 400 Ver­bin­dun­gen, 68 GB RAM und 26 com­pu­ting units. Wer’s braucht…

Hero­kus Datei­sys­tem ist read-only, Dateiu­ploads las­sen sich also nicht rea­li­sie­ren. Hier­zu kann/sollte man, auch laut Hero­ku-Doku­men­ta­ti­on, auf Anbie­ter wie Ama­zon S3 aus­wei­chen. Für Rails-Anwen­dun­gen gibt es diver­se Mög­lich­kei­ten, Uploads zu Ama­zons S3 (Simp­le Sto­rage Ser­vice) aus der Anwen­dung her­aus zu rea­li­sie­ren. Nament­lich erwähnt wer­den Attach­ment-Fu und Paper­clip. Eine per­sön­li­che Prä­fe­renz kann ich hier abge­ben, ich hab mit bei­den noch nicht gear­bei­tet. Hero­ku emp­fiehlt im Übri­gen gene­rell, gro­ße Datei­en, die die Appli­ka­ti­on zum Down­load bereit­stel­len soll, aus Per­for­mance­grün­den zu S3 oder ähn­li­chen Ser­vices aus­zu­la­gern, weil das Datei­sys­tem von Hero­ku nicht für der­ar­ti­ge Anwen­dungs­zwe­cke kon­zi­piert und opti­miert wur­de.

Um die Per­for­mance­un­ter­schie­de mes­sen zu kön­nen, habe ich eine Instal­la­ti­on von Red­mi­ne bei Hero­ku vor­ge­nom­men. Das Deploy­en die­ser Anwen­dung ist lei­der nicht total tri­vi­al, die ein­zel­nen Schrit­te habe ich des­we­gen in einem Gist (wel­cher auch noch mal ganz unten ein­ge­bet­tet ist) nie­der­ge­schrie­ben.

Zum Ergeb­nis mei­ner Bench­marks, gemes­sen auf einer Pro­jekt­über­sichts­sei­te mit ab -c 50 -n 200:

  1. 1 Dyno (kos­ten­los): 7,98 Requests pro Sekun­de
  2. 2 Dynos: 13,15 Requests pro Sekun­de
  3. 3 Dynos: 18,46 Requests pro Sekun­de
  4. 10 Dynos: 53,46 Requests pro Sekun­de
  5. 24 Dynos: 84,14 Requests pro Sekun­de
  6. 1 Worker: 7,64 Requests pro Sekun­de
  7. 2 Worker: 7,74 Requests pro Sekun­de

Die Anzahl der Worker wirkt sich also in kei­ner Wei­se auf die Anwen­dungs­per­for­mance aus, die Anzahl der Dynos hin­ge­gen beträcht­lich. Den größ­ten Gewinn (pro­zen­tu­al gese­hen) bekommt man hier, wenn man von dem einen kos­ten­lo­sen Dyno auf einen zwei­ten, kos­ten­pflich­ti­gen auf­rüs­tet. Die monat­li­chen Kos­ten lie­gen mit die­sem bei rund 36 US-$, also umge­rech­net in etwa 27 €. Eigent­lich nicht zu viel ver­langt, man darf nur nicht ver­ges­sen, dass in die­sem Preis noch kein Sto­rage und nur 5 MB an Daten­bank­platz inklu­si­ve ist.

Zum Ver­gleich: mein nicht opti­mier­ter Root-Ser­ver (Athlon64 X2 6.400+, 4 GB RAM, OpenVZ) lie­fert rund 10,5
R
equests pro Sekun­de. Den muss ich natür­lich selbst admi­nis­trie­ren, war­ten, etc. Und das Deploy­ment ist auch längst nicht so bequem bzw. müss­te erst mal von mir auf die­sen Bequem­lich­keits­le­vel gebracht wer­den.

Hero­ku bie­tet für einen akzep­ta­blen Preis einen wirk­lich tol­len und per­for­man­ten sowie äußerst fle­xi­blen Ser­vice an. Für den Rails-Ent­wick­ler, der kei­ne Lust hat, sich mit der Ein­rich­tung und Admi­nis­tra­ti­on eines Rails-fähi­gen Web­ser­vers rum­zu­schla­gen und ggf. auf­tre­ten­de Pro­ble­me zu behe­ben ist Hero­ku aus mei­ner Sicht opti­mal. Zumal man hier nicht gleich einen zwei­ten Ser­ver hin­zu kau­fen muss, nur weil die Anwen­dung an ein oder zwei Stun­den am Tag mal mehr Res­sour­cen braucht, als es die eige­ne Hard­ware zulässt. Die Anmel­dung kos­tet nichts und das Deploy­en der eige­nen (oder frem­den) Anwen­dung genau so wenig. Einem Ver­such steht also nichts im Wege. Viel Spaß dabei.

https://gist.github.com/779866