<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; color: rgb(0, 0, 0); font-size: 14px; font-family: Calibri, sans-serif; ">
<span id="OLK_SRC_BODY_SECTION">
<div>
<div dir="auto">
<blockquote type="cite">
<div>
<div id="divtagdefaultwrapper" style="font-size:12pt;color:#000000;background-color:#FFFFFF;font-family:Calibri,Arial,Helvetica,sans-serif;">
<div style="color: rgb(0, 0, 0);">
<div>
<div>Occasionally questions have arisen on DCRM-L about the sophistication (or perceived lack thereof) of OCLC's software for deduplication of bib records. The reality is that staff in our Metadata Quality group are constantly improving the software based on
 user feedback and quality review of incoming and de-duped records. Tweaking is so regular that they meet more than once/week to discuss details.</div>
<div><br>
</div>
<div>As an example of what goes on, the latest round of changes appears below. In effect, this is a random group of additions to what is already a really complex list of criteria. Note that the same routine is used for matching batchloaded records against WorldCat
 as for dedup-ing existing records.</div>
<div><br>
</div>
<div>Remember that <b>none of this applies to pre-1800 records</b>. They are not de-duped.</div>
<div><br>
</div>
<div>Best wishes to all, Jackie</div>
<div>
<div>
<div><br>
</div>
<table class="MsoNormalTable" border="0" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td width="100%" valign="top" style="width:350px; padding:0in">
<p style="margin: 0in 0in 10pt; font-size: 11pt; line-height: 115%; font-family: Calibri;">
<span style="font-size: 9pt; font-family: Arial, sans-serif; color: rgb(51, 63, 72); ">-</span><span style="font-size:12pt"></span></p>
</td>
</tr>
<tr>
<td width="100%" valign="top" style="width:350px; padding:3pt 0in 0in">
<p style="margin: 0in 0in 10pt; font-size: 11pt; line-height: 115%; font-family: Calibri;">
<font face="Calibri"><span style="color:rgb(51,63,72)">Jackie Dooley</span></font></p>
</td>
</tr>
<tr>
<td valign="bottom" style="padding:3pt 0in 0in">
<p style="margin: 0in 0in 10pt; line-height: 115%; font-size: 11pt; font-family: Calibri;">
<font face="Calibri" style="font-size:12px"><span style="color:rgb(51,63,72)">Program Officer, OCLC Research</span></font></p>
</td>
</tr>
<tr>
<td valign="bottom" style="padding:3pt 0in 0in">
<p style="margin: 0in 0in 10pt; line-height: 115%; font-size: 11pt; font-family: Calibri;">
<span style="color:rgb(51,63,72); font-size:12px"><font face="Calibri">647 Camino de los Mares, Suite 108-240</font></span></p>
<p style="margin: 0in 0in 10pt; line-height: 115%; font-size: 11pt; font-family: Calibri;">
<font face="Calibri"><span style="color:rgb(51,63,72); font-size:12px">San Clemente, CA 92673</span><font size="3"></font></font></p>
</td>
</tr>
<tr>
<td valign="bottom" style="padding:3pt 0in 0in"><font face="Calibri" style="font-size:12px">office/home 949-492-5060<br>
mobile 949-295-1529<br>
<a href="mailto:dooleyj@oclc.org">dooleyj@oclc.org</a></font></td>
</tr>
<tr>
<td valign="top" style="padding:6pt 0in 3.75pt">
<p style="margin: 0in 0in 10pt; font-size: 11pt; line-height: 115%; font-family: Calibri;">
<a href="http://www.oclc.org/home.en.html?cmpid=emailsig_logo" style="color: blue; text-decoration: underline;"><span style="color:blue; text-decoration:none"><img border="0" width="118" height="42" id="_x0000_i1025" alt="OCLC" style="-webkit-user-select: none;" src="http://www.oclc.org/content/dam/ext-ref/emailsignature/oclc-logo-emailsignature.png"></span></a></p>
</td>
</tr>
<tr>
<td valign="top" style="padding:0in 0in 4.5pt">
<p style="margin: 0in 0in 10pt; font-size: 11pt; line-height: 115%; font-family: Calibri;">
<span style="font-size: 8pt; font-family: Arial, sans-serif; color: rgb(33, 120, 181); "><a href="http://www.oclc.org/home.en.html?cmpid=emailsig_link" style="color: blue; text-decoration: underline;"><span style="color:rgb(33,120,181); text-decoration:none">OCLC.org</span></a>/research</span></p>
<p style="margin: 0in 0in 10pt; font-size: 11pt; line-height: 115%; font-family: Calibri;">
<span style="font-size: 8pt; font-family: Arial, sans-serif; color: rgb(33, 120, 181); "><br>
</span></p>
<p style="margin: 0in 0in 10pt; font-size: 11pt; line-height: 115%; font-family: Calibri;">
</p>
<p style="margin: 0in 0in 10pt; text-indent: -0.25in; line-height: 115%; font-size: 11pt; font-family: Calibri;">
1.<span style="font-size: 7pt; line-height: normal; font-family: 'Times New Roman'; ">    
</span>MATCH-2974 (<a href="https://jira.oclc.org/browse/MATCH-2974" style="color: blue; text-decoration: underline;">https://jira.oclc.org/browse/MATCH-2974</a>):  “Confirm Matches on Both Bracketed and Un-Bracketed Data in Extent.”</p>
<p style="margin: 0in 0in 10pt 0.5in; line-height: 115%; font-size: 11pt; font-family: Calibri;">
In the past, square-bracketed data ([]) in Extent (field 300) had generally been ignored for comparison, but because of RDA changes that have resulted in greatly reduced use of square brackets, extent matching now includes both bracketed and un-bracketed data. 
 Data within angle brackets (<>) are temporary data, a practice that has not changed under RDA, so treatment of these data has not changed.</p>
<p style="margin: 0in 0in 10pt; text-indent: -0.25in; line-height: 115%; font-size: 11pt; font-family: Calibri;">
2.<span style="font-size: 7pt; line-height: normal; font-family: 'Times New Roman'; ">    
</span>MATCH-2990 (<a href="https://jira.oclc.org/browse/MATCH-2990" style="color: blue; text-decoration: underline;">https://jira.oclc.org/browse/MATCH-2990</a>):  “Drop Duration Statements as a Point of Comparison in Extent.”</p>
<p style="margin: 0in 0in 10pt 0.5in; line-height: 115%; font-size: 11pt; font-family: Calibri;">
Parenthetical duration statements that appear in Extent (field 300) for both remotely-accessed and tangible sound recordings are no longer included in extent matching.</p>
<p style="margin: 0in 0in 10pt; text-indent: -0.25in; line-height: 115%; font-size: 11pt; font-family: Calibri;">
3.<span style="font-size: 7pt; line-height: normal; font-family: 'Times New Roman'; ">    
</span>MATCH-2992 (<a href="https://jira.oclc.org/browse/MATCH-2992" style="color: blue; text-decoration: underline;">https://jira.oclc.org/browse/MATCH-2992</a>):  “Repeatable 250 Edition Statement.”</p>
<p style="margin: 0in 0in 10pt 0.5in; line-height: 115%; font-size: 11pt; font-family: Calibri;">
The edition statement field 250 was made repeatable in OCLC-MARC in 2014.  Matching now takes into consideration all iterations of field 250 for comparison.</p>
<p style="margin: 0in 0in 10pt; text-indent: -0.25in; line-height: 115%; font-size: 11pt; font-family: Calibri;">
4.<span style="font-size: 7pt; line-height: normal; font-family: 'Times New Roman'; ">    
</span>MATCH-2995 (<a href="https://jira.oclc.org/browse/MATCH-2995" style="color: blue; text-decoration: underline;">https://jira.oclc.org/browse/MATCH-2995</a>):  “Publisher Comparison is Mismatching on 533:533 but Failing to Stop Trying.”</p>
<p style="margin: 0in 0in 10pt 0.5in; line-height: 115%; font-size: 11pt; font-family: Calibri;">
Once publishers in field 533 are determined not to match, further attempts to match publishers are stopped.  The only exceptions are where subfield $5 is present in field 533, in which case publishers in field 533 are disregarded and matching goes on to compare
 publishers in fields 260/264.</p>
<p style="margin: 0in 0in 10pt; text-indent: -0.25in; line-height: 115%; font-size: 11pt; font-family: Calibri;">
5.<span style="font-size: 7pt; line-height: normal; font-family: 'Times New Roman'; ">    
</span>MATCH-2996 (<a href="https://jira.oclc.org/browse/MATCH-2996" style="color: blue; text-decoration: underline;">https://jira.oclc.org/browse/MATCH-2996</a>):  “Extent Comparison with ‘(various pagings)’ Needs Changes to Expect ‘volume.’”</p>
<p style="margin: 0in 0in 10pt 0.5in; line-height: 115%; font-size: 11pt; font-family: Calibri;">
The extent comparison was not taking into consideration the spelled-out “volume/volumes” in addition to the abbreviated “v.” in the context of extents that included the designation “(various pagings).”  This was resulting in incorrect matching of single volumes
 with multiple volumes.  Incidentally, this JIRA also added several additional equivalents for the publisher/distributor National Technical Information Service.</p>
<p style="margin: 0in 0in 10pt; text-indent: -0.25in; line-height: 115%; font-size: 11pt; font-family: Calibri;">
6.<span style="font-size: 7pt; line-height: normal; font-family: 'Times New Roman'; ">    
</span>MATCH-2999 (<a href="https://jira.oclc.org/browse/MATCH-2999" style="color: blue; text-decoration: underline;">https://jira.oclc.org/browse/MATCH-2999</a>):  “Equivalent Edition Statements Not Equated (Commonly Occurring Case).”</p>
<p style="margin: 0in 0in 10pt 0.5in; line-height: 115%; font-size: 11pt; font-family: Calibri;">
Additional variants for “first edition” statements have been added as equivalents.</p>
<p></p>
</td>
</tr>
</tbody>
</table>
<p style="margin: 0in 0in 10pt; font-size: 11pt; line-height: 115%; font-family: Calibri;">
<br>
</p>
</div>
</div>
<br>
</div>
</div>
</div>
</div>
</blockquote>
</div>
</div>
</span>
</body>
</html>