内容简介······[size=1em]本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。
[size=1em]本书是Web开发者、架构师、应用工程师等的绝佳选择。
作者简介······[size=1em]Toby Segaran是Genstruct公司的软件开发主管,这家公司涉足计算生物领域,他本人的职责是设计算法,并利用数据挖掘技术来辅助了解药品机理。Toby Segaran还为其他几家公司和数个开源项目服务,帮助它们从收集到的数据当中分析并发掘价值。除此以外,Toby Segaran还建立了几个免费的网站应用,包括流行的tasktoy和Lazybase。他非常喜欢滑雪与品酒,其博客地址是blog.kiwitobes.com,现居于旧金山。
目录······[size=1em]前言第1章集体智慧导言什么是集体智慧什么是机器学习机器学习的局限真实生活中的例子学习型算法的其他用途第2章提供推荐协作型过滤搜集偏好寻找相近的用户推荐物品匹配商品构建一个基于del.icio.us的链接推荐系统基于物品的过滤使用MovieLens数据集基于用户进行过滤还是基于物品进行过滤练习第3章发现群组监督学习和无监督学习单词向量分级聚类绘制树状图列聚类K-均值聚类针对偏好的聚类以二维形式展现数据有关聚类的其他事宜练习第4章搜索与排名搜索引擎的组成一个简单的爬虫程序建立索引查询基于内容的排名利用外部回指链接从点击行为中学习练习第5章优化组团旅游描述题解成本函数随机搜索爬山法模拟退火算法遗传算法真实的航班搜索涉及偏好的优化网络可视化其他可能的应用场合练习第6章文档过滤过滤垃圾信息文档和单词对分类器进行训练计算概率朴素分类器费舍尔方法将经过训练的分类器持久化过滤博客订阅源对特征检测的改进使用Akismet替代方法练习第7章决策树建模预测注册用户引入决策树对树进行训练选择最合适的拆分方案以递归方式构造树决策树的显示对新的观测数据进行分类决策树的剪枝处理缺失数据处理数值型结果对住房价格进行建模对“热度”评价进行建模什么时候使用决策树练习第8章构建价格模型构造一个样本数据集k-最近邻算法为近邻分配权重交叉验证不同类型的变量对缩放结果进行优化不对称分布使用真实数据——eBay API何时使用k-最近邻算法练习第9章高阶分类:核方法与SVM婚介数据集数据中的难点基本的线性分类分类特征对数据进行缩放处理理解核方法支持向量机使用LIBSVM基于Facebook的匹配练习第10章寻找独立特征搜集一组新闻先前的方法非负矩阵因式分解结果呈现利用股票市场的数据练习第11章智能进化什么是遗传编程将程序以树形方式表示构造初始种群测试题解对程序进行变异交叉构筑环境一个简单的游戏更多可能性练习第12章算法总结贝叶斯分类器决策树分类器神经网络支持向量机k-最近邻聚类多维缩放非负矩阵因式分解优化附录A:第三方函数库附录B:数学公式索引