开源的 Web 搜索框架 Apache Nutch 的版本已于 2012 年 10 月 5 日发布,该版本的新特性包括:支持一些改进属性,用于更好地配置 Solr;更新到各个 Gora 依赖;可以选择构建弹性搜索中的索引。Nutch 既可以运行在单台服务器上,也可以用作大规模抓取平台运行在Hadoop 集群上。
Nutch 框架的 2.0 版本在经历了两年开发之后,已于今年 7 月发布,该版本以Apache Gora框架作为其存储抽象而构建。Apache Gora 开源框架提供了一种内存数据模型,并支持大数据的持久化。它支持将数据持久化到列存储、键值存储、文档存储和关系数据库中,还可以利用大量 Apache Hadoop 的 MapReduce 支持工具来分析数据。在今年早些时候,Gora 已成为 Apache 的顶级项目。
Nutch 2 支持大数据存储方案,如分布式键值存储Apache Accumulo、数据序列化系统Apache Avro、列族数据存储Apache Cassandra、分布式大数据存储Apache HBase和 Hadoop 分布式文件系统(HDFS)。
InfoQ 采访了 Apache Nutch 项目的副总裁 Julien Nioche,他也是 DigitalPebble Ltd 的主管。他将于 2012 年 11 月 7 日在Apache Conference Europe上介绍如何使用 Nutch 框架进行大规模抓取。
InfoQ:Apache Nutch framework 的哪些方面使其适合 NoSQL 数据库和大数据领域?
InfoQ:Apache Gora 框架也是出自 Nutch 项目。作为 NoSQL 数据库的一个 ORM 框架,你能否谈论一下它对应用程序开发人员有何帮助?
InfoQ:最新的版本也支持 HTML 解析,这是利用 Apache Tika 框架来处理的。你能详细描述一下这一特性是如何工作的吗?
InfoQ:在即将发布的版本和特性方面,Nutch 项目未来的路线图是什么样的?
他也谈到了完成这一项目所用的十年:
7 月份,Apache Nutch 团队宣布发布了Nutch v1.5.1。这是Nutch 框架1.5.x 主干版本的一个维护性发布。具体信息见该版本的修改列表。该搜索框架可以从网络上下载。Nutch 的文档和教程等资料请参见项目的页面。
关于被采访人
Julien Nioche 是 DigitalPebble Ltd 的创始人,这是一家位于英国布里斯托尔的咨询公司,专注于为文本工程提供开源解决方案。Julien 的专长涉及信息检索、文本分析、信息抽取、自然语言处理和机器学习等领域。他还是 Apache Nutch 项目的副总裁、Apache Tika 和 Apache Gora 的提交者以及其他一些开源项目的贡献者。
查看英文原文 :Julien Nioche on Apache Nutch 2 Features and Product Roadmap