Tag Archives: mail

“Zu grosse” Mailordner

Ich habe 2007 bei der Einführung von Zimbra in der Firma versprochen, dass man “nie wieder Mail löschen” müsste. Das hat bei einigen Usern dazu geführt, dass einige Heavy User Inzwischen die 50 GB Marke Durchbrochen haben.

Für diese User ist E-Mail das zentrale Archivsystem. Wenn wir jetzt aber auf eine anderes Mailsystem, wie Google Apps umsteigen, wo wir “nur” 25 GB Mail pro user speichern können, haben wir ein Problem.

Bei näherer Betrachtung stellt sich heraus, dass die User mit sehr vielen Mails, relativ wenig Speicher (2 GB oder so) verbrauchen. Die User, die so viel Speicher verwenden sind die, die viele Attatchments haben.

Ein alter Plan von mir (noch aus Exchange Zeiten) war es, einfach die Attatchments von den Mails zu entfernen. Die Mails selber kann man sogar auf dem Server lassen und das Attatchment durch einen Link, wo die Datei jetzt herunter geladen werden kann, ersetzen.

Ich hab das mal bei Rent-A-Coder ausgeschrieben:

We need an Python Command Line Application which connects to an IMAP4 server and scans all messages (in all subfolders) of a certain account. If the messages are older than a certain date and have Attatchments bigger than a certain size the attatchmens should be extracted from the Message.

In addition there should be an option to remove the attatchment from the message (but keep the message) on the server (to save space on the server).
Output Should be put in CouchDB (see http://code.google.com/p/couchdb-python/#) where you should put To:, From:, Date:, Subject, In-Reply-to, References and Message-Id in the document. The Attatchment should be added as couchdb Attatchment conserving the mime type and file name.

Command line invokation might look like this:

remove-attachments
--server=myserver.example.com # IMAP hostname
--user=username # IMAP user
--password=pass # IMAP password
--couchdb=http://localhost:5984/maildb # save to couchdb running here
--mindate=2009-03-01 # only  check messages send befor this date
--minsize=1500 # only check messages bigger than 1500 KB
--remove # remove attatchments

If an Attatchment is removed instead of it there should be put a note in the message that an attatchment has been removed.

Since we will have extremely big (> 50GB) Mail Folders the tool must be able be run several times on the same account without generation duplicates in CouchDB.

Selten so freudig eine Rechnung bezahlt

Zimbra ist einfach super Software.

Mails nicht löschen.

Vor etwa einem Jahr sind wir auf Zimbra umgestiegen. Eine Anforderung war: Unterstützung grosser Mailboxen. Bei 25 Cent pro GB Plattenplatz muss keiner seine Arbeitszeit mit dem Löschen von E-Mails verbringen.

Wenn man sich die Daten vom Vorjahr anschaut, haben die User tatsächlich fleissig nicht gelöscht und stattdessen Mail aufgehäuft.

Bilanz: Heavy User erzeugen 5-10 GB Mail pro Jahr. Beeindruckend.

Wie kann man so arbeiten?

Ouch, zimbra macht jetzt auf Outlook.

Mir ist völlig unerklärlich, wie Leute arbeiten können, wenn alle 30 Sekunden ein Fenster aufpoppt, mit irgendeiner Mail die grad ankommt.

Frankenserv

Ein paar Tage nach unserer Zimbra Umstellung wollte ich mehr Speicher in den Server einbauen. Danach war der Server kaputt. Bootete nicht mehr. Tatsächlich stellte sich nachher raus, dass ein Speicherriegel defekt war – ob der nun das Mainboard auf dem gewissen hat oder woran es auch immer Lag, die Box war bricked. Ich hatte zwar och einen server in der Hinterhand, aber der hatte ein Gehäuse mit SCSI RAID – keine Chance die 8 Platten sATA-RAID und die eine IDE Bootplatte unterzubringen. Die Platten im SCSI-Raid waren aber deutlich zu klein für meinen Bedarf. Also all mein Taschengeld in neue, grössere SCSI Platten investiert.

Für die Zwischenzeit habe ich mir einen “Frankenserv” gebaut. Zwei grosse Rackrechner nebeneinander auf den Tisch, in den einen (kaputten) die Platten, Controller dafür in den Anderen, fertig das ganze. Lief auch erstaunlich gut – eigentlich sogar besser als vorher. Zimbra läuft entscheidend besser auf einer 4 Prozessor Maschine mit 8G als auf einem Prozessor mit 1 GB.

Nun war es Zeit, das ganze wieder in ein Gehäuse zu bauen. Insbesondere war es die Aufgabe Kinder Unix, auf dem Zimbra ja leider läuft, dazu zu bringen, von dem obskuren RAID Controller zu booten. Was mir dabei vor allem mal wieder klar geworden ist: Die Dokumentation von Linux ist wirklich in einem katastrophalen Zustand. Aber jetzt ist GRUB umkonfiguriert/-installiert, eine neue initrd gebaut, LVM abgeschaltet und das System bootet sauber. Kein Frankenserv mehr. Uff.

Hidden data

Wenn ich meinen Hut als Computer Forensik Gelehrter auf habe, rede ich ja oft und gerne von den Gefahren, die in MS Office/Word Dokumenten schlummern. Im Grunde weiss man nie, was Word mit die in die DOC-Dateien ‘reinpackt. Deshalb würde ich ja am liebsten bei uns im Unternehmen Word und Excel – oder zumindest den Dateiaustausch damit – verbieten. Bisher hat mir allerdings dazu der Mut gefehlt.

Nun hat Zimbra eine Nette Funktion, Office Dokumente direkt als HTML anzeigen zu lassen. Spart einem eine lokale Word Installation.

Wie sich nun ‘rausstellt, ist diese Funktion auch gut geeignet “versteckte” Bereiche in Word Dokumenten aufzudecken. Der HTML-Konverter versteht einfach nicht genug von Word Dateiformat und zeigt alles an, was er in der Datei findet. Auch wenn es eigentlich als gelöscht markiert ist.

Dadurch hat sich herausgestellt, dass in unserer Briefvorlage, die wir bei HUDORA verwenden tatsächlich noch das alte, seit mehr als 10 Jahren nichtmehr verwendete Logo steckt. Ouch!

Userbeschwerden

Zu den Userbeschwerden nach unserer Mailumstellung gehört: “Zimbra ist überfrachtet”. Naja:

Mail-Migration komplett erledigt

So inzwischen ist der Umstieg unser E-Mail Infrastruktur auf Zimbra erledigt. Komplett. Hoffe ich.

Zumindest sind alle Verteilerlisten angelegt, alle öffentlichen Ordern migriert, alle Kalender verteilt und alle Mailboxen importiert. Das Importieren aller Mailboxen war doch deutlich mehr Arbeit, als erwartet und bereitete allerlei nicht reproduzierbare Probleme. Aber vor allen brauchte es sehr lange.

Während des Imports hatte sich der Server mehrfach festgefressen, weil jeweils irgendeine Partition mit jeweils irgendwelchen Journalen oder Indiezes vollgelaufen war. Und es ist nicht so, als hätten wir beim Plattenspeicher gegeizt.

Filesystem            Size  Used Avail Use% Mounted on
/dev/mapper/VolGroup00-LogVol00
                       72G   15G   53G  22% /
/dev/hda1              99M   13M   82M  14% /boot
none                  506M     0  506M   0% /dev/shm
/dev/sda              1.2T  6.1G  1.1T   1% /mnt/bigdata
/dev/sdc              294G  137G  143G  49% /opt/zimbra/backup
/dev/sdb              294G   89G  190G  32% /mnt/mirroreddata

Wir Sind Live!

Seit heute Nachmittag ist unser Zimbra System im “Echtbetrieb”. Der Import Usermailboxen (”Archive” laut Outlook-Denke) hat doch deutlich mehr Arbeit gemacht, als erwartet. Der Ganze MAPI-Stack samt des Zimbra Import Assistenten hat sich sehr oft verklemmt und gelegentlich war das nur durch einen Reboot der Windows Maschine(n) zu beheben. Naja, MAPI hat ja bald ein Ende.

Wieviel Mail “braucht” man?

Da die Frage gestellt wurde, wieviel Mail-Speicher man braucht, habe ich mal angefangen zu rechnen:

Bei 3000 Containern im Jahr möchte ich, dass Fotos von den Produkten vor Verschiffung und bei Entladung gemacht und gemailt werden. Wegen Mischcontainerin usw. sagen wir, dass sind 30 Bilder pro Container. Dazu kommen die Frachtdokumente sagen wir 50 Bilder (in der Regel s/w/ scans) pro Container. Bei 1000 Neu-Produkten im Jahr müssen die Verpackungsdesigns und Anleitungen hochauflösend zwischen uns, Agentur, Druckerei, TÜV und so weiter Hin und her gemailt werden. Sagen wir 20 Bilder pro Produkt.

So sind wir schon bei etwa einer viertel Million Bildern im Jahr. Wenn ich davon ausgehe, dass jedes dieser Bilder als Mail codiert 500 kb Gross ist, brauche ich allein über 100 GB Speicherplatz für Bilder Attatchments im Jahr.

Ich möchte diese Bilder – mal ganz unabhängig von gesetzlichen Vorschriften – mindestens zwei Jahre aufheben, denn Wenn ich ein Produkt jetzt designe, es in der Sommersaison 2008 an Endkunden geht, dann kann ich erst im Herbst 2008 einigermassen sicher sein, dass da kein faules Ei dabei war und ich recherchieren muss, wie es dazu gekommen ist. (Typisches Beispiel: Warum steht in der Anleitung, das ding wäre für Benutzer bis 120 kg, wir hatten das doch nur bis 115 kg getestet.)

Jetzt kann man natürlich verlangen, dass diese Bilder sonstwo gespeichert werden, aber eigentlich sind sie in einem Mailsystem schon ganz gut untergebracht, denn da habe ich jede Menge Metadaten (Datum, Absender usw.) die ich sonst mühevoll anderweitig verwalten müsste.

Abgesehen davon ist es mit zu teuer, jemanden für die im Grunde unnötige und unproduktive Arbeit des Mail-Löschens zu bezahlen.