Anhang Inhalt auslesen

  • Hallo,


    direkter Zugriff auf Inhalte von Dateien ist immer nur mit den jeweiligen Programmen möglich. Es gibt aber externe Hilfsprogramme, die bestimmte Dateiformate als Text auslesen können (die GREYHOUND Suchmaschine nutzt beispielsweise ein paar davon). Im Server Plugin Verzeichnis von GREYHOUND wird dafür z.B. xpdf mit ausgeliefert. Via FbmStartProcessEx kann das gestartet werden. xpdf selbst liegt eine Doku bei.

  • Nur als Hinweis: Im aktuellen Release kann GREYHOUND beim Briefeingang neben TIFF auch PDF und JPG verarbeiten. Wenn Mails über ein Briefeingangskonto mit einem PDF reinkommen, wird also der Inhalt des PDFs als Text in das Element eingefügt. Und damit kann man dann ja allerhand anfangen.


    Ich weiß ja nicht, um welchen Anwendungsfall es geht, aber vielleicht kann man sich das in diesem Fall zu Nutze machen. Allerdings hat man diese Nachrichten dann eben als Briefe in GREYHOUND und nicht als E-Mails.

  • Also die Dateien werden über FileSync reingeholt. Einfach in den Ordner gezogen und landen dann auf dem GH Server. Außer der PDF Datei habe ich keine Infos. Will die aber auf jeden Fall als Dateien noch drin haben. Danach sollen die klassifiziert werden. Geht aber nicht, wenn ich keine Infos lesen kann. Da wir Massenimporte von Dateien machen, kann ich sie so jemandem zuordnen:
    Item.Classified.Add(640683);
    Das ist auch erst mal so ok. Ich werde mir die "xpdf" Geschichte mal anschauen. Vielleicht ist es einfacher zu implementieren als es aussieht.


    Gruß
    Ara Fard

  • Hallo,


    ich habe im Rahmen einer anderen Analyse das folgende Skript zusammengestellt, welches für die PDF-Analyse genutzt werden kann:



    Der Pfad zu pdftotxt.exe muss ggf. angepasst werden. Zu beachten ist dabei, dass pdftotext geschützte PDF-Dateien nicht lesen kann. Text auf eingebetteten Bildern wird ebenfalls nicht erkannt. Normale Rechnungen, Lieferscheine, etc. sollten damit aber kein Problem sein.