Tags:Python

Wikipedia词网的实验程序:Python version

1 Oct. 2009

Wikipedia, a very large scale Web-based dictionary, is an invaluable Web corpus for knowledge extraction. The impressive characteristics are not limited to the scale, but also include the live updates, a dense link structure, brief link texts and URL identification for concepts. After a number of early experiments, our conviction that Wikipedia is a notable Web corpus for knowledge extraction has been strongly confirmed. We first extracted a Web thesaurus from Wikipedia. A thesaurus is a data structure that defines semantic relatedness among words.

这是我在某所日本高校的某研究室发现的一个lab,专门从事wikipedia的研究。他们提供了一个API,可以方便地取出一些他们的研究数据,如某个词条的词频及引用数。我用这个API做了个app,可以通过API获得如同义词及相关词等资料。

这个东西其实挺囧的,就是用python当胶水。但官方提供的WSDL文件是由.net生成的,根据某些文献,python对.net的支持并不好。根据实际测试,像python下的SOAPpy,ZSI,ruby自带的wsdl库,PEAR的wsdl库全部失效。微软果然是do evil的公司,说是开放标准,做的东西别人却很难兼容。

最后我采用了httplib直接用raw报文,还好官方API会提供这些报文的文档,所以就算没有soap的库同样可以用httplib和re工作得很好。我成功利用它们实际了API的大部分函数,虽然这个demo没给出所有结果。

网络端用的是CherryPy,这是我第一次用这玩意,本来是用mod_python库的,但它太容易出问题,CherryPy工作得很好,我想我以后都会用它搭建轻量给的实验程序。

目前只有英语,本来API是支持英日双语的,但我unicode方面还搞不定,先放一下。晚点再放一下源码,其实很短的罢了~搜索可能会等得比较久,毕竟平均每个词要同时通过SOAP进行十余次的查询。

有时间的话自己实现一下这个功能应该也不会很难,应该就是蜘蛛+分析器。

 

Tags::labPythonwikipedia

4 comments

UASparser for Python进了官方页面了

27 Aug. 2009

昨天user-agent-string.info官方网站的Jarta发邮件给我,说是在网上看到我写的UASparser for Python,想收录进他的网站里面,我当然答应说好,只是好奇这项目我放出来才几天,居然这么快就被官方找出来,有点始料不及。毕竟这是我第一次写的东西被收录(呃~很多久东西根本就没提交当然也不可能收录)。

官方网站的连接:请猛击此处,为此我还把wiki页面译成英文的

还好一直以来都坚持用英文写程序,其实无他,只是想向全世界分享自己写的东西罢了。

这也强迫我去把yumeblog的多语言搞下来,一直想搞,还是懒。除了多语言,还有markup整合,还有pingback,还有预览,还有无限分类,一大堆~

够忙了~

Tags::PythonUASparseryumeblog项目

4 comments

做了个Python版的UserAgent离线分析器~

23 Aug. 2009

本来打算在YumeBlog里面加一个类似壳壳的Blog的那个来客UserAgent分析功能的,不过Google了一下才发现不简单。找到的比较好的解决方案是USAparser,但这玩意只有PHP版本。

我花了点时间,改写成Python的版本,功能是一模一样,流程逻辑也差不多:定时更新、自动下载最新数据库、生成缓存、解释并返回结果

在Python版本中,我使用pickle/cPickle来代替了原PHP版本的ini格式缓存。说实话,就算用PHP我也会倾向于序列化,要么就是生成索引,认真看完原PHP版本有些地方写得真是很臭脚。

要下载的朋友请进入:USAparser For Python的项目地址,带说明和示例

有了这个类,集成到django也是几行的事情罢了,这里就不搞了。

Tags::PythonUSAparser项目

7 comments