Scalaでパーサコンビネータ

Scala 2.6.0-RC1 でscala.util.parsing.combinatorが標準パッケージになりました。というわけでリファレンスとちょっとしたサンプルくらしかなかったのだけど、とりあえず書いてみた。

どう書く?org に投稿した、ExcelライクCSVのパーサ。

import scala.util.parsing.combinator.{Parsers, ImplicitConversions, ~, mkTilde}
import scala.util.parsing.input.CharArrayReader
import Character.isISOControl

object CSVParser {
 trait Base
 case class Field(s:String) extends Base {
   override def toString = s
 }
 case class Record(fields: List[Field]) extends Base
 case class File(records :List[Record]) extends Base

 def mkString(cs :List[Any]) = cs.mkString("")
 class CSVParser extends Parsers {
   type Elem = Char
   def notMeta(c:Elem) = c!=',' && c!='\n' && c!='"' && !isISOControl(c)

   lazy val file   = record.*('\n') ^^ File
   lazy val record = (field|quotedField|nullableField).*(',') ^^ Record
   lazy val field = chars.+ ^^ {cs => Field(mkString(cs))}
   lazy val nullableField = chars.* ^^ {cs => Field("")}
   lazy val quotedField = '"' ~ (charsInQuote|quoteInQuote).* ~ '"' ^^ {cs => Field(mkString(cs))}
   lazy val charsInQuote = elem("chars in field", _!='"')
   lazy val quoteInQuote = repN(2, quote) ^^ {cs => '"'}
   lazy val quote  = '"' ^^ success
   lazy val chars  = elem("chars", notMeta)
 }
}

val data = """
"aaa","b
bb","ccc",zzz,"y""Y""y",xxx
""".trim

(new CSVParser.CSVParser).file(new
CharArrayReader(data.toCharArray)).map(file => {
 file.records.map({record =>
   val fields = record.fields
   (1 to fields.length).foreach(i => println(i +" => " + fields(i-1)))
 })
})

とりあえずこんな感じ。これはダイレクトにParsersクラスを直接継承してるけど、StdTokenParsersってかんじのParserもあるし、StdLexicalってかんじなLexerもあってこれはなかなか。

時間が出来たらもうちょっといじってみよう。よさげな解説してるサイトがあったら是非教えてください。

comments powered by Disqus