Wikipedia词网的实验程序:Python version
1 Oct. 2009

Wikipedia, a very large scale Web-based dictionary, is an invaluable Web corpus for knowledge extraction. The impressive characteristics are not limited to the scale, but also include the live updates, a dense link structure, brief link texts and URL identification for concepts. After a number of early experiments, our conviction that Wikipedia is a notable Web corpus for knowledge extraction has been strongly confirmed. We first extracted a Web thesaurus from Wikipedia. A thesaurus is a data structure that defines semantic relatedness among words.
这是我在某所日本高校的某研究室发现的一个lab,专门从事wikipedia的研究。他们提供了一个API,可以方便地取出一些他们的研究数据,如某个词条的词频及引用数。我用这个API做了个app,可以通过API获得如同义词及相关词等资料。
这个东西其实挺囧的,就是用python当胶水。但官方提供的WSDL文件是由.net生成的,根据某些文献,python对.net的支持并不好。根据实际测试,像python下的SOAPpy,ZSI,ruby自带的wsdl库,PEAR的wsdl库全部失效。微软果然是do evil的公司,说是开放标准,做的东西别人却很难兼容。
最后我采用了httplib直接用raw报文,还好官方API会提供这些报文的文档,所以就算没有soap的库同样可以用httplib和re工作得很好。我成功利用它们实际了API的大部分函数,虽然这个demo没给出所有结果。
网络端用的是CherryPy,这是我第一次用这玩意,本来是用mod_python库的,但它太容易出问题,CherryPy工作得很好,我想我以后都会用它搭建轻量给的实验程序。
目前只有英语,本来API是支持英日双语的,但我unicode方面还搞不定,先放一下。晚点再放一下源码,其实很短的罢了~搜索可能会等得比较久,毕竟平均每个词要同时通过SOAP进行十余次的查询。
有时间的话自己实现一下这个功能应该也不会很难,应该就是蜘蛛+分析器。
昨天user-agent-string.info官方网站的Jarta发邮件给我,说是在网上看到我写的UASparser for Python,想收录进他的网站里面,我当然答应说好,只是好奇这项目我放出来才几天,居然这么快就被官方找出来,有点始料不及。毕竟这是我第一次写的东西被收录(呃~很多久东西根本就没提交当然也不可能收录)。
本来打算在