大数据时代律师行业的三大变革

来源：网络更新时间：2014-8-22

面对新技术，法律专业人士通常是最保守的人群之一，但大数据时代，律师和律师事务所要想脱颖而出，卓尔不群，尽快采用大数据技术是不二之选。

2008年金融危机以来，律师行业经历了长期的低潮，越来越多的企业客户无法负担高昂的律师费用，导致律所裁员不断，规模日渐萎缩。而那些行业领先的律所开始推崇“精益企业”，收费模式也从过去的固定费率调整为按需服务。

但是“精益律所”并非根本的解决方案，律师事务所还必须借助大数据大幅降低信息处理成本，提高数字竞争力。近日GigaOM专栏作者Derrick Harris撰文指出，律师事务所基于大数据进行流程优化时，需要重点考虑三个问题。

一、自动化造就“火眼金睛”

文档检索可能是大数据对法律工作影响最大的领域。律所通常存储海量的非结构化电子文档，包括电子邮件、Office文档、PDF文档等等，从数以TB计的数据中检索案件相关文档简直就是律师的噩梦，费时、费力而且准确性差。通过大数据智能分析软件，律所能够大大提高文档检索效率。例如大数据创业公司Recommind开发的大数据软件能通过机器学习算法进行“预测编码”，大大提高法律文档的检索效率。另外一家值得关注的企业——PureDiscovery的语义分析技术也能大幅提高文档检索效率。

值得注意的是Recommind还在不断开发新的产品Hypergraph（超级图谱），例如帮助律师发现人、话题、时间线、非结构化数据之间关联关系的功能（编者按：类似图谱分析）。在这个领域Recommind面对的竞争对手包括Zylab、EMC和IBM。

二、一切皆可数字化

案件诉讼中会产生大量文档，而这些文档“蕴藏”的数据对后来的案件辩护和审理则具有很高的参考价值。

大数据创业公司Lex Machina 的目标客户是知识产权律师，为他们提供决策支撑数据统计服务。 Lex machina将很多过去的较为模糊的定性数据都给量化了，例如“这位法官对被告很不利”、“这种索赔的案件通常都能赢”或“这位律师对此类技术的经验值最高”等。Lex Machina的数据分析的数据源主要来自公开的PACER（联邦法庭数据库），PACER的数据一直在那，但是Lex Machina是第一家通过机器学习和自然语言处理等技术从中“淘宝”的公司。

值得注意的是，Lex Machina的前身是一个非盈利项目——斯坦福知识产权法律结算中心，公司还招募到了斯坦福大学的机器学习和自然语言处理专家Andrew Ng和Christopher Manning。IEEE Spectrum上有一篇对Lex Machina的报道非常精彩。

三、大数据应用的自助与创新

与其遥遥无期地坐等大数据厂商开发好用的律师工具，律师们需要自己动手，创造性地利用各种现成的大数据工具和数据源。例如律师可以使用类似ScraperWiki这样的工具分析证人的Twitter联系人网络和活动记录。

律师还可以使用类似etcML这样的免费工具（对应的付费服务如AlchemyAPI）分析各种文本，包括推文和电子邮件，来发现关键观念或进行倾向性判断。零用import.io这样的工具从网站抽取数据（例如房产价格历史数据），并制作成图表。

另外，律师还应当学习掌握目前比较流行的一些数据可视化工具。

上一篇文章：决胜大数据：企业成功的七大步骤

下一篇文章：警务大数据：纽约警察使用Twitter预测犯罪