Delprosjekt:
Arkivering av soc.culture.lebanon og rec.music.arabic

Ansvarlig:
Simen Løken Haagenrud (simen.l.haagenrud@hiof.no)
Innledning:

Al Mashriq har idag arkivert alle news-meldingene som er blitt sendt til soc.culture.lebanon fra 1. januar 1995. Hver dag blir alle nye innlegg lagt inn i Al Mashriq. Idag pr. 26. januar 1997 er det ca 130 Mb med data. Vi skulle finne en god metode å navigere og søke i disse meldingene på en enklest mulig måte. Idag er alle medingene lagret etter dato, noe som er greit hvis man er interessert i en melding fra en viss dag, men det er lite brukervennlig ved søking og følging av tråder.

Eksempel på filnavn i dagens løsning:
1996/06/27_Jun_1996

Forstudie:
Sortering på subject

En mulighet vi så var å lage en indeks som inneholdt en link til alle newsmeldingene. Denne indeksen var lagret alfabetisk etter subject, slik at det ble akkurat som å lese news i en news-leser. Først trykket man på en tråd man fant interresant, deretter fikk man en oversikt over alle meldingene i denne tråden. Deretter kunne man lese hver enkelt innlegg. Problemet var at hovedsiden som inneholdt alle subject'ene ble på 1,5 Mb. Noe som viste seg å være lite aktuelt å hente ned fra nettet gjennom en web-browser.

Fordeler:
Enkelt å bruke.
Velkjent miljø for de fleste Internet-brukere

Ulemper:
Alt for store data.
Problemer med oppdatering av indekser.

Søking

Fritekstsøk i news-meldingene er også en mulighet. Hvis man lager en god søkemaskin der man kan søke etter ord i innlegg, og deretter følge denne tråden videre hadde vært et en god løsning. Ulempen er at man må vite hva man skal søke på, man kan ikke bare ta en titt og se om man finner noe spennende. I tillegg mister man informasjonen om hvor mye data det er snakk om.

Fordeler:
Raskt å finne det man leter etter.
Enkelt å navigere seg etter at man har funnet noe interresant.
Leter i hele meldinger og ikke bare i subject'et.

Ulemper:
Må vite hva man leter etter.
Kan ikke lenger navigere seg rundt i news-innleggene for å finne noe interresant.

Usenet-Web 1.02

Dette er en pakke med perl-program som lar deg lage et arkiv av news-grupper. Her kan du søke i subject-feltet og from-feltet. Man kan også navigere seg ved hjelp av dato. Det er en viss grad av threading, man kan følge en tråd hvis det er et References-felt. Her blir alle meldingene automatisk komprimert for å bruke mindre plass. En ulempe er at man må omstrukturere hele basen. Dette vil være en jobb. Men man kan likevel navigere seg på samme måte som før (ved hjelp av dato). Eksempel på bruk.

Sift

Dette er en pakke som er lagd i C. Det virker som om det kun er søking, og at man kan følge en melding ved hjelp av tråder. Ulempen er at det er lagd i C og vanskelig å få til å fungere på HPUX. Har prøvd å kompilere denne på Edmund og Elrond, uten hell. Brukes ved Reference.com.

Newsserver

Å sette opp en newsserver på edmund, med bare de newsgruppene som er aktuelle kunne vært en mulighet. Da kan man bruke sin egen news-leser for å koble seg opp mot edmund. Newsserveren blir satt til å ikke slette gamle newsmeldinger. Ulempen med dette er at det blir veldig mange meldinger etterhvert. Det kunne vært en mulighet å dele opp news-gruppen i flere news-grupper. For eksempel ha en news-gruppe for hvert år.

Kombinasjoner

For å lage et system som er så fleksibelt og brukervennlig som mulig er en mulighet å kombinere dagens lagringssystem med en fremtidig søkemulighet. News-delen er altså to-delt; man kan velge mellom å søke i arkivet, eller man kan navigere seg rundt i meldingene ved hjelp av en web-browser.

Hva har vi gjort:
Valget falt på Usenet-Web, fordi dette var enkelt å implementere og enkelt å tilrettelegge/endre etter våre behov. Jeg installerte Usenet-web på almashriq uten store problemer. Etter å ha installert programvaren måtte jeg endre i en konfigurasjonsfil: usenet-web.rc. I tillegg måtte jeg endre i noen andre filer slik at kataloger o.l. ble riktige.
Når alt var riktig konfigurert måtte jeg lage noen script som tok de gamle news-filene (som var en fil pr. dag, der alle meldingene lå etter hverandre) og delte de opp slik at det ble en fil for hver news-melding. Jeg lagde 2 forskjellige skript, ett som endret filstrukturen før 1996 og en etter (ettersom news-meldingene hadde et annet "utseende" før 1996). Disse skriptene kjørte jeg deretter på alle news-meldingene i scl og rma. Deretter kjørte jeg et program som heter usenet-web-archiver.pl som oppdaterer news-databasen og legger inn nye meldinger.

Når alle de gamle meldingene var overført lagde jeg et script som tar for seg alle nye meldinger som kommer inn til Al Mashirq. Hver natt rundt kl. 1200 kommer det 2 mail til almashriq, addressert til scl@edmund.hiof.no og rma@edmund.hiof.no. En mail som inneholder dagens scl meldinger, og en som inneholder dagens rma meldinger. Disse blir sendt til et script som heter sclnews og rmanews (se prosjektrapport fra 1996, hvor det står mer om hvordan dette fungerer). Dette scriptet kaller igjen opp et scipt som heter rmaauto og sclauto, som jeg har lagd, som som fungerer på samme måte som de andre skriptene jeg lagde (scltilfil.pl og rmatilfil.pl). Deretter vil basen bli oppdatert automatisk.

Reorganisering av SCL.Vi har også slettet alle linker til index.html under almashriq/scl. Det som lå under scl har blitt linket fra andre steder, isteden. Dette ble gjort fordi man så det unødvendig å ha et eget emne kalt scl. Reorganiseringen av SCL gikk smertefritt.

Erfaringer:
Det var litt problemer med å få det til å virke i starten, mest på grunn av problemer med filrettigheter. Måtte endre eieren av alle kataloger o.l. til mail:mail. Da virket det. Ellers så kan man jo håpe at det kommer en ny versjon der man kan søke i selve news-meldingen. Ettersom det er en konfigurasjons-fil tror man at det eneste man trenger å endre er i denne, men det er feil. Man må huske at man må endre kataloger o.l. i flere filer (blandt annet fetch) hvis man flytter på programmet. I tillegg må man endre i alle filene hvis man flytter perl. Jeg mistet også noen meldinger når jeg flyttet de over til det nye arkivet, men det var ikke så mange.
Mulige forbedringer:
Som tidligere sagt, burde det gått an å søke i hele news-meldingen. Dette er en forbedring som kan komme med nye versjoner av program-pakken. Følging og bedre oversikt over threads burde også være forbedret. Men ingen av disse tingene kan gjøres her, de må bli gjort av de som lagde programmet.
Prosjektfakta
Lokalisering:
  • Usenet-web: ligger i /home/almash/admin/news/usenet-web-102
  • Newsmeldinger til usenet-web: /www/almashriq/htdocs/scl/scl-news/(soc)(rec)
  • Scripts: /home/almash/admin/news/rma-news og /home/almash/admin/news/scl-news
  • Dokumentasjon til Usenet-web ligger lokalt her eller originalt ligger det her.
Tidsestimering:
  • Totalt sett ca. 200 timer.