<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7036.0">
<TITLE>FW: [SCC_Active_Members] Request: a program for managing duplicates</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/rtf format -->

<P><SPAN LANG="en-us"><FONT SIZE=2 FACE="Arial">FYI, Hans Pufal (in Grenoble, France) and I just discussed by telephone my request and his proposed program.&nbsp; As I understand it, what's wanted can be accomplished in a fairly brief AWK script.</FONT><FONT SIZE=2 FACE="Arial">&nbsp; Furthermore, he's been working with Al Kossow for something similar for collections the CHM holds.</FONT></SPAN></P>

<P><SPAN LANG="en-us"><FONT SIZE=2 FACE="Arial">Specifically, we discussed some technical aspects that would make the program useful for such similar situations as we can today anticipate</FONT><FONT SIZE=2 FACE="Arial">, with a view both to one-time collection clean-up and also to eventual virtual museum visitors' convenience (e.g., in extracting parts of a collection into directories/files in their own OS environement.)&nbsp;</FONT> </SPAN></P>

<P><SPAN LANG="en-us"><FONT SIZE=2 FACE="Arial">H</FONT><FONT SIZE=2 FACE="Arial">ans</FONT><FONT SIZE=2 FACE="Arial"> volunteered to</FONT><FONT SIZE=2 FACE="Arial"> upgrade a similar program that he has in hand, both for the requirements we discussed and also with a view to potential third party tailoring (i.e., help with internal documentation).&nbsp; He plans to write this program over the weekend.&nbsp; Then I will test it and he and I will discuss what we have with a view to refinements.&nbsp; At least the first version of the program we discussed might leave some anticipated requirements that are not short term needs unsatisfied, but identified in the program's documentation.&nbsp; For instance, handling of references has some subtleties that seem unimportant now, but not necessarily unimportant in some distant future.&nbsp; Hans did identify one addition to my specification--providing a log of all changes made so that an eventual user bothered by a change could reverse it.&nbsp; </FONT></SPAN></P>

<P><SPAN LANG="en-us"><FONT SIZE=2 FACE="Arial">Eventually the program being discussed might be placed in a museum collection of tools useful to museums.</FONT></SPAN>
</P>

<P><SPAN LANG="en-us"><FONT SIZE=2 FACE="Arial">We would welcome further suggestions.</FONT></SPAN>
</P>

<P><SPAN LANG="en-us"><FONT SIZE=2 FACE="Arial">Cheerio, Henry</FONT></SPAN>
</P>

<P><SPAN LANG="en-us"><FONT SIZE=2 FACE="Arial">-----Original Message-----</FONT></SPAN>

<BR><SPAN LANG="en-us"><FONT SIZE=2 FACE="Arial">From: hans@pufal.net [</FONT></SPAN><A HREF="mailto:hans@pufal.net"><SPAN LANG="en-us"><U><FONT COLOR="#0000FF" SIZE=2 FACE="Arial">mailto:hans@pufal.net</FONT></U></SPAN></A><SPAN LANG="en-us"><FONT SIZE=2 FACE="Arial">] </FONT></SPAN>

<BR><SPAN LANG="en-us"><FONT SIZE=2 FACE="Arial">Sent: Thursday, April 26, 2007 10:26 AM</FONT></SPAN>

<BR><SPAN LANG="en-us"><FONT SIZE=2 FACE="Arial">To: chm-snobol@CS.Arizona.EDU; 'H . M . Gladney'</FONT></SPAN>

<BR><SPAN LANG="en-us"><FONT SIZE=2 FACE="Arial">Subject: Re: [SCC_Active_Members] Request: a program for managing duplicates</FONT></SPAN>
</P>

<P><SPAN LANG="en-us"><FONT SIZE=2 FACE="Arial">On Thu Apr 26 10:09 , &quot;H.M. Gladney&quot;&nbsp; sent:&nbsp; &gt;Request: a program for managing duplicates&nbsp; &gt;Does any recipient of this note know of a program that can detect duplicate files in a collection and, for each replicated instance, replace all occurrences but one with references to the one remaining?&nbsp; If no such program can be found, does some recipient have the skills and willingness to create and share such a program?&nbsp; </FONT></SPAN></P>

<P><SPAN LANG="en-us"><FONT SIZE=2 FACE="Arial">I can provide some input on this having done something similar recently.&nbsp; I tackled the duplicate file problem by generating alistof all the files, then using a simple AWK script generated the MD5 checksums of each. Sorting on the checksums and running unique shows up all duplicate file.&nbsp; If this is too cryptic and you ha</FONT><FONT SIZE=2 FACE="Arial">v</FONT><FONT SIZE=2 FACE="Arial">e AWK available I can build you an AWK script which does all this in one swoop.&nbsp; Another simple AWK script can read the file list and rename &quot;problematic&quot;file names,specifically replacing space with '_'. Again I can provide a script if necessary.&nbsp; Alternatively, if you can alter the scripts you are using, enclose all filenames in double quotes, this gets rid of most (but not all) problems.&nbsp;&nbsp;&nbsp; </FONT></SPAN></P>

<P><SPAN LANG="en-us"><FONT SIZE=2 FACE="Arial">-- Hans&nbsp; </FONT></SPAN>
</P>

</BODY>
</HTML>